Voicebox:把 ElevenLabs 和 WisprFlow 装进本地
“一个开源本地语音工作室——声音克隆、全局听写、TTS 生成,数据不离本机。“
它解决了什么问题
Section titled “它解决了什么问题”想在本地跑语音合成,选项不少,但都有明显缺口:
- ElevenLabs:效果好、声音克隆强,但每个字都在别人服务器上处理,免费额度用完就要订阅
- WisprFlow:全局听写体验一流,但 macOS 独占,Windows 用户没得用
- Azure TTS / Google TTS:API 成熟,但要联网、要计费、要信任云厂商
Voicebox 的出发点很直接:把这两件事合进一个应用,跑在你自己的机器上,一条数据不上传。
Voicebox 由加拿大开发者 Jamie Pine 独立开发,同时担任 Spacedrive Technology Inc. 的 CEO。
他不是第一次做这种事。之前的代表作 Spacedrive 是一个用 Rust 构建的开源跨平台文件管理器,38k Star,走的是同一套路线:Tauri + Rust 技术栈、本地优先、审美在线。
GitHub 签名三个字概括了他的风格:rust, ai and nice ui。
他每天公开直播写代码,Voicebox 的很多功能都是在直播里边做边聊出来的,社区参与度很高,Issues 和 PR 回复也比较及时。
目前水平如何
Section titled “目前水平如何”Voicebox 在 2025 年初开源,截至 2026 年 6 月已发布 v0.5.0,GitHub Star 28k+,在本地 TTS 工具里属于第一梯队。
跟商业产品比: 底层模型(Chatterbox、Qwen3-TTS)在多项评测里的表现已经接近甚至持平 ElevenLabs,人工检测 AI 合成语音的准确率几乎与随机猜测无异。克隆效果不输付费服务,差距主要在稳定性和易用性上。
跟同类开源工具比: 完成度明显高于把模型简单打包进 GUI 的竞品,从声音管理、克隆流程、全局听写到 MCP 集成,形成了完整工作流,而不只是一个推理前端。
不足在哪: 还在快速迭代,偶尔有版本更新后引擎行为变化的问题;Windows 的听写自动注入功能尚未实现;Python 后端依赖首次配置有一定门槛。
🎙 声音克隆
Section titled “🎙 声音克隆”上传 3–10 秒参考音频,Voicebox 用零样本克隆技术生成声音档案,之后生成语音时选这个档案即可。参考音频越干净(无背景噪声、无混响),克隆结果越准。
⌨️ 全局听写
Section titled “⌨️ 全局听写”绑定一个全局热键,在任意窗口按下即开始录音,松开自动转文字输出到剪贴板。底层走 Whisper,支持中英文及 20+ 语言。可以额外开启本地 LLM 润色,自动去掉”嗯""那个”等口头语。
📖 Stories 编辑器
Section titled “📖 Stories 编辑器”多角色脚本编辑器,给每段台词分配不同的克隆声音,一键导出多声部播客或有声书。
🎛 后处理效果
Section titled “🎛 后处理效果”生成语音后可叠加变调、混响、压缩等效果,不用再开 Audacity 处理。
🤖 MCP Server
Section titled “🤖 MCP Server”内置 MCP 服务端,让 Claude Desktop、Cursor 等 AI 客户端可以直接调用你的声音档案朗读输出。
Voicebox 集成了多个 TTS 引擎,按需下载,不用全装:
| 引擎 | 大小 | 显存 | 特点 |
|---|---|---|---|
| Kokoro | 350 MB | ~150 MB | 50 个预设声音,不支持克隆,最轻量,适合快速体验 |
| Chatterbox Turbo | 1.5 GB | ~1.5 GB | 英语,支持 [laugh] / [sigh] 情感标签 |
| Qwen3-TTS 0.6B | 1.2 GB | ~2 GB | 中英文克隆,轻量版 |
| Qwen3-TTS 1.7B | 3.5 GB | ~6 GB | 中英文克隆,精度最高 |
| Chatterbox Multilingual | 3.2 GB | ~3 GB | 23 种语言,克隆稳定,适合多语言场景 |
| Whisper Turbo(STT) | 1.5 GB | — | 听写用,速度与质量均衡,推荐首选 |
最省空间的起步组合:Kokoro + Whisper Turbo,合计不到 2 GB,可以体验 TTS 预设声音和听写。
想要克隆:中英文加 Qwen3-TTS 0.6B,英语加 Chatterbox Turbo,多语言加 Chatterbox Multilingual。
| Voicebox | ElevenLabs | WisprFlow | Whisper + Coqui | |
|---|---|---|---|---|
| 本地运行 | ✅ | ❌ | ❌ | ✅ |
| 声音克隆 | ✅ | ✅ | ❌ | ⚠️ 需自行配置 |
| 全局听写 | ✅ | ❌ | ✅ | ❌ |
| Windows 支持 | ✅ | ✅ | ❌ | ✅ |
| 免费使用 | ✅ 完全免费 | ⚠️ 有限额 | ⚠️ 订阅制 | ✅ |
| 数据隐私 | ✅ 不联网 | ❌ 上传云端 | ❌ 上传云端 | ✅ |
| MCP 集成 | ✅ | ❌ | ❌ | ❌ |
| 开源 | ✅ MIT | ❌ | ❌ | ✅ |
| 上手难度 | ⚠️ 中等 | ✅ 简单 | ✅ 简单 | ❌ 较高 |
⚠️ ElevenLabs 和 WisprFlow 的体验打磨比 Voicebox 成熟,但代价是数据上传、持续付费、无法离线。Voicebox 是想要隐私和免费的用户目前最接近商业体验的选择。
✅ 优势
- 所有推理在本地完成,语音数据不离开你的机器
- TTS + STT + 克隆 + MCP 集成,工作流完整,不需要拼接多个工具
- MIT 开源,可以审计代码,也可以自行修改
- 多引擎支持,可以根据显存和语言需求灵活选择
- 作者活跃,迭代速度快
⚠️ 不足
- Windows 听写不支持自动注入光标,松开热键后需要手动
Ctrl+V(macOS 已支持,Windows 在 Roadmap 中) - 依赖 Python 后端,首次启动需要下载依赖,对环境有一定要求
- 部分引擎升级后偶有声音一致性问题,遇到可以降版本或换引擎
- 没有手机端,无法在移动设备上使用
Windows 安装
Section titled “Windows 安装”第一步:下载安装包
前往 GitHub Releases 下载最新 .exe 安装包,直接安装即可。Python 后端随应用打包,不需要单独安装 Python。
第二步:确认显卡驱动
有 NVIDIA 独显的,确认驱动版本 ≥ 527。没有独显的,应用内选择 DirectML 模式,CPU 也能跑,但推理速度明显慢于 GPU。
第三步:下载模型
首次启动后,进入设置 → 引擎,选择需要的引擎点击下载。模型文件保存在本地,下载一次永久可用。
推荐先装 Kokoro(350 MB)验证一下能否正常出声,再按需追加其他引擎。
使用技巧与注意事项
Section titled “使用技巧与注意事项”声音克隆效果最大化
- 参考音频控制在 5–10 秒,太短克隆不稳定,太长也没有明显提升
- 录音环境尽量安静,背景噪声和混响是克隆质量的主要杀手
- 用同一个说话人的不同录音多试几次,选择效果最好的存档
- Chatterbox Multilingual 的情感参数:
0.3适合信息播报,0.7以上适合叙事或播客
引擎稳定性
- Qwen3-TTS 精度高,但部分版本有声音漂移问题(同一文本多次生成声音不一致)。遇到可以固定 seed,或换用 Chatterbox Multilingual
- Chatterbox Turbo 的情感标签写在文字里,格式是
[laugh]、[sigh],注意是英文方括号
Windows 听写流程
目前在 Windows 上听写的实际操作是:
- 按下热键,开始说话
- 松开热键,等待转录(约 1–2 秒)
- 手动
Ctrl+V粘贴到目标位置
macOS 上松开热键会直接注入光标,体验更顺滑。Windows 自动注入功能预计在后续版本跟进。
模型存放建议
模型文件体积大,建议提前确认下载目录有足够空间。可以在应用设置里修改模型存放路径,推荐放到非系统盘。
接入 Claude Desktop
Section titled “接入 Claude Desktop”Voicebox 内置 MCP Server,接入后 Claude 可以直接调用你的克隆声音朗读输出,屏幕上会弹出浮层提示是哪个声音档案在发言。
在 claude_desktop_config.json 里加入:
{ "mcpServers": { "voicebox": { "command": "npx", "args": ["-y", "voicebox-mcp"] } }}重启 Claude Desktop,在对话里让 Claude 说一句话测试一下:
用我的克隆声音说:「部署完成」如果配置正确,应该能听到声音并看到浮层提示。
✅ 非常适合
- 需要 TTS 但不想把语音数据传给第三方的用户
- 想要声音克隆,又不愿意持续付费的人
- 在 Windows 上需要全局听写的开发者(目前选择很少)
- 用 Claude Desktop 并且想要语音输出的人
⚠️ 暂时不适合
- 需要手机端的用户
- 对听写自动注入有强需求的 Windows 用户(等后续版本)
- 完全没有 GPU 且对速度有要求的场景
Voicebox 是目前开源本地 TTS 工具里完成度最高的选择,不只是把模型打包进 GUI,而是把克隆、听写、MCP 集成做成了完整工作流。对隐私有要求、不想持续付费、或者需要 AI Agent 能出声的人,目前没有比它更合适的方案。Windows 上的体验距离 macOS 还有一步,但主线功能已经可以日常使用。
开源地址:
github.com/jamiepine/voicebox官网:voicebox.sh协议:MIT,免费永久使用