① 客户端层
🌐
Web 应用
浏览器直用 · 无需安装
会议工作台 + 知识库问答
原生 JS
Tailwind CSS
Web Audio API
WebSocket
🖥️
Mac 客户端 — ClarityX
原生桌面端 · 系统音频采集
Tauri
Rust
TypeScript
Vite · WebKit
💬
飞书机器人 — Clare
/clare 斜杠指令 · 消息卡片 v2
会议纪要自动推送群聊
Webhook 事件
互动卡片 v2
OAuth 2.0
规划中
🔷
硬件设备
会议室专属终端
麦克风阵列 · 唤醒词 · I2S
ESP32-S3
ESP-IDF
FreeRTOS · C/C++
LVGL 界面
规划中
▼ HTTPS / WSS · JWT Bearer 鉴权 · REST + WebSocket
② 后端平台 — Node.js · PM2 · Nginx :443 · Let's Encrypt · Cloudflare DNS
③ GPU 服务层 — FastAPI · uvicorn · 5× RTX 4090
语音 API voice-api/ · Python · FastAPI | FunASR · SenseVoice + 说话人识别
语音 API — 完整问答流水线
FastAPI · uvicorn · voice-api/
- ws /ws/transcribe/{id} — 双路 ASR + 说话人分离
- ws /ws/host/{id} — ASR → LLM → TTS 全链路
- POST /api/rtc/{id}/open — 火山引擎 RTC 全双工(硬件)
- POST /api/session / GET /api/config — 热加载 LLM 配置
- 并行 TTS 合成 · FIFO 顺序播放
FunASR — 语音识别引擎
SenseVoice-Small
- 6 万小时中文语料训练
- fsmn-vad 神经网络 VAD
- JSON + base64 PCM 协议
- ~500ms(句末触发)
FunASR — 说话人识别
ERes2NetV2
- 说话人声纹向量提取
- 余弦相似度聚类
- SpeakerAligner 时间轴投票
- 回填 20 段历史记录
▼ 云端 API 调用 · 火山引擎 · Anthropic · DeepSeek
④ 云端 AI 服务 & 基础设施
⚡ 云端 AI 服务
ASR · 火山引擎
大模型流式语音识别
wss://openspeech.bytedance.com
/api/v3/sauc/bigmodel
二进制帧协议 · ~200ms
云端 · 备用引擎
TTS · Seed-TTS 2.0
24kHz MP3 · 流式合成
wss://openspeech.bytedance.com
/api/v3/tts/bidirection
多句并行合成
云端
语音 API · 硬件模式
ws /ws/host/{session_id}
ESP32-S3 WSS 客户端
PTT → ASR → LLM → TTS
MP3 流 → I2S 播放
WebSocket · 私有部署
大语言模型 · DeepSeek
Chat + Reasoner 模型
OpenAI 兼容接口
会议分析 · 争议点提取
增量摘要生成
免费 / Lite / Pro
大语言模型 · Claude
Opus / Sonnet
经由 LiteLLM 网关
Max 及企业版专属
更高质量会议纪要
Max / 企业版
RAG · 知识库问答
本地文件摄入
飞书文档 + Wiki 同步
向量检索 + LLM 问答
kb-panel.js · 1797 行
Max 及以上 · 功能门控
🛡️ 基础设施 & 集成
🔒
TLS · Nginx
Let's Encrypt · 自动续签
Nginx 反向代理
☁️
Cloudflare
DNS · DDoS 防护
全球 CDN 边缘节点
🗄️
数据库
SQLite → PostgreSQL
Knex.js · 7 个迁移
零停机 Schema 升级
💬
飞书开放平台 API
/auth/v3/tenant_access_token
/docx/v1/documents
/wiki/v2/spaces/get_node
/im/v1/messages
可扩展性
PM2 集群模式 → 水平扩展 · JWT 无状态
SQLite → PostgreSQL · 平滑迁移路径
双路 ASR:私有 GPU ↔ 云端热切换
部署模式:share(公网)| internal(内网)