主讲台

幻灯片定章节骨架，语音填页内讲解。你的输入实时收敛成观众端的认知画布。

房间 ·

观众链接（发给听众，同一房间）

每个房间是独立的一场会，互不串台。新建房间会切到一条新链接；把观众链接发给听众即可同场。

数据备份 / 导出

所有数据每几秒自动备份到本地浏览器（localStorage），刷新/断网不丢，可随时导出。

① 会议

会议标题

② 幻灯片 → 章节骨架

幻灯片标题（= 章节标题）

页面要点 / OCR 文本（可选）

每加一页 = 一个新章节边界（§2.2 翻页=最干净的话题边界）。

③ 语音 → 页内讲解

点击开始 · VAD 按停顿断句 → 当前 ASR 引擎（见 ⑥′）

（实时转写将显示在这里）

glm-asr 是非流式（按片段请求/响应）。我们用客户端 VAD（按停顿断句）在其上做出流式效果：连续录音、说话停顿处自动切一段、立即送识别、按序回填，既不切词也低延迟。浏览器本地编码 WAV → glm-asr，国内可用、不依赖 Google。
没麦克风可用下方手动输入或上传音频文件；需 ⑥ 配置已开通「语音/ASR」资源包的 GLM key。

或手动输入一句讲解（无麦克风时使用）

或上传音频文件测试（mp3 / wav / m4a，浏览器解码切片 → GLM-ASR）

④ 模拟会议（无需硬件即可演示）

模拟会自动播放一场分享 + 几百条观众评论/表情，用来观察 many-to-one 实时综合。会议的「结束/清空」已收归管理后台，主讲台无法结束会议。

⑤′ AI 同事参与（增强参与感）

开启后，几位不同身份的 AI 同事（产品/架构/怀疑派/新人/数据控/行业观察）会不定时对当前正在讲的内容发表评论或提问，让场子更活。需 ⑥ 配好 GLM key。

⑤ 真实演讲文稿（纯语音，无幻灯片）

蔡元培《就任北京大学校长之演说》(1917, 公有领域) 逐句作为语音输入。无幻灯片 → 章节标题需靠语音“听一阵”后才提炼出来，并随话题切换自动分段（§2.2 off-deck）。

⑥ 综合引擎 · API Key（前端配置）

Provider

API Key

Endpoint（可选，自定义/代理/自建，OpenAI 兼容）

模型（可选）

部署版不烘焙任何 key。这里配置的 key 只存于服务器内存（本房间共享），不写文件、不回传前端、重启即失效。未配置时走启发式回退。

⑥′ 语音识别 · ASR 引擎

ASR Provider

AppID（X-Api-App-Key）

Access Token（X-Api-Access-Key）

Resource ID

接入地址（可选）

豆包走火山引擎二进制 WebSocket 流式协议（中文准确率明显优于 glm-asr）。需在火山/豆包语音控制台开通「大模型流式语音识别」并拿到 AppID / Access Token / Resource ID。凭证只存服务器内存+本地 DB，不回传前端。当前仍复用「按停顿断句→每段识别」的链路（真·常驻流式为后续 Phase 2）。

⑦ 上传资料到检索（资料补充·本地）

资料补充来源：

支持 txt / md / docx / pptx（PDF 请转成 txt/docx，或用 tools/index_docs.py 建索引）。上传即并入「资料补充」的本地检索语料、立即生效。需把来源切到「本地检索（local）」并开启 ⑤′ AI 同事，资料补充才会用你上传的内容。

主讲台登录

主讲台

房间 ·

数据备份 / 导出

① 会议

② 幻灯片 → 章节骨架

③ 语音 → 页内讲解

④ 模拟会议（无需硬件即可演示）

⑤′ AI 同事参与（增强参与感）

⑤ 真实演讲文稿（纯语音，无幻灯片）

⑥ 综合引擎 · API Key（前端配置）

⑥′ 语音识别 · ASR 引擎

⑦ 上传资料到检索（资料补充·本地）