Voicebox:2026年最强开源声音克隆工具,3秒克隆你的声音,完全免费本地运行
你有没有想过,只需要3秒钟的音频样本,就能克隆出一个和你声音几乎一模一样的AI语音?而且完全免费、不需要联网、不会泄露隐私?
今天要介绍的 Voicebox,就是目前最强大的开源声音克隆工具。它支持5种TTS引擎、23种语言,全程运行在你自己的电脑上,不需要花一分钱,也不需要懂代码。
什么是Voicebox?
Voicebox是一款托管在GitHub上的开源声音克隆工具,官网地址是 voicebox.sh。它的核心能力是通过AI模型克隆你的声音,然后用克隆出来的音色去朗读任意文本。
简单来说,它的原理是:
- 你提供一段声音样本(可以是录音、上传音频文件,甚至录制系统内正在播放的声音)
- AI分析你的音色特征
- 用你的音色去朗读你输入的任何文字
克隆出来的声音效果非常逼真,甚至比很多付费工具还要好。
Voicebox的核心功能
支持5种TTS引擎
Voicebox最强大的地方在于它内置了多种TTS引擎,你可以根据自己的需求选择不同的模型:
| 引擎名称 | 模型大小 | 支持语言 | 特点 |
|---|---|---|---|
| Qwen TTS 1.7B | 4.23GB | 10种语言 | 效果最好,克隆质量最高 |
| Qwen TTS 0.6B | 2.34GB | 10种语言 | 轻量版,速度更快 |
| ChatterBox | - | 多语言 | 速度快,适合快速生成 |
| ChatterBox Turbo | - | 多语言 | ChatterBox的加速版 |
| Lux TTS | - | 仅英文 | 英文专用引擎 |
其中 Qwen TTS 是阿里巴巴发布的高质量多语言文本转语音模型,1.7B版本代表它使用了17亿条数据进行训练,理论上克隆效果最好。
支持23种语言
虽然软件界面目前只有英文,但它在语音克隆时完全支持中文、英语、法语、德语、西班牙语、俄语、日语、韩语等23种语言。你可以用中文的声音样本,让它克隆出英文发音,反之亦然。
三种声音采集方式
Voicebox提供了灵活的声音源采集方式:
- 上传音频文件:直接选择你已有的声音文件
- 麦克风录音:通过电脑麦克风实时录制你的声音
- 系统内录:捕获电脑正在播放的任何声音(比如电影、短视频里的声音)
内置时间线编辑器
软件自带一个简单的时间线编辑器(Stories功能),你可以:
- 同时编辑多段克隆语音
- 将不同片段拖拽到轨道上拼接
- 制作完整的有声内容
音效添加
Voicebox还支持给克隆的声音添加各种特效:
- Robotic:机器人风格
- Radio:电台主持人风格
- Echo:回音效果
- Bass Boost:重低音增强
API支持
对于开发者,Voicebox还提供了API接口,你可以通过编写代码直接调用它的功能,而不需要操作软件界面。访问本地API文档地址即可查看所有可用接口。
如何下载和安装Voicebox
第一步:下载安装包
访问Voicebox官网 voicebox.sh,点击页面中间的黄色 Download 按钮,页面会自动跳转到底部的下载区域。
根据你的操作系统选择对应的版本:
- Mac用户:
- M系列芯片(M1/M2/M3/M4/M5)选择左侧按钮
- Intel芯片选择右侧按钮
- Windows用户:选择Windows按钮
- Linux用户:选择Linux按钮
第二步:安装软件
下载完成后,双击安装包,一路点击 Next 选择安装位置即可完成安装。安装完成后,桌面上会出现一个金色麦克风图标。
第三步:下载AI模型
首次打开软件后,需要在模型页面下载TTS模型才能使用。建议至少下载:
- Qwen TTS 1.7B:效果最好,适合对质量要求高的场景
- Qwen TTS 0.6B:轻量版,生成速度更快
- Whisper Base:用于语音转文字功能
第四步:安装CUDA(Windows用户必看)
如果你使用的是Windows电脑且有英伟达显卡,强烈建议安装CUDA。安装CUDA后,软件可以调用显卡加速,声音克隆速度会有显著提升。
安装CUDA前后速度对比:
| 模型 | 无CUDA | 有CUDA | 提升幅度 |
|---|---|---|---|
| Qwen 1.7B | ~90秒 | ~20-40秒 | 2-4倍 |
| Qwen 0.6B | ~54秒 | ~30秒 | 约2倍 |
| ChatterBox | ~50秒 | ~6秒 | 约8倍 |
Mac用户不需要担心这个问题,macOS系统会自动利用Apple Silicon的性能。
如何使用Voicebox克隆声音
步骤一:创建声音源
- 点击软件左上角的 Create Voice 按钮
- 选择声音采集方式(上传文件/麦克风录音/系统内录)
- 选择你准备好的音频文件
步骤二:填写声音信息
- 文字内容:填写音频文件中说的文字内容(这个很重要,AI需要知道这段声音说了什么)
- 声音名称:给这个声音源取一个名字
- 语言选择:选择音频原始语言(中文音频选择CHINESE)
步骤三:选择模型并生成
- 在生成页面选择要使用的TTS模型
- 输入你想让AI用你的声音朗读的文字
- 选择目标语言
- 选择是否添加音效
- 点击黄色按钮开始生成
生成完成后,软件会自动播放克隆出来的语音。你可以试听效果,不满意可以点击 Regenerate 重新生成。
步骤四:导出音频
满意后,点击语音记录右侧的三个点,选择 Export Audio,选择保存位置即可导出为音频文件。
不同设备的性能对比
我在不同设备上测试了Voicebox的克隆速度(相同文字内容):
Windows电脑(无CUDA)
- Qwen 1.7B:约90秒
- Qwen 0.6B:约54秒
- ChatterBox:约50秒
Windows电脑(有CUDA)
- Qwen 1.7B:最快20秒,最慢40多秒
- Qwen 0.6B:约30秒
- ChatterBox:约6秒
MacBook Pro M1 Max
- Qwen 1.7B:约8秒
- Qwen 0.6B:约8秒
Mac的表现让人意外,0.6B和1.7B的速度基本一致,而且整体速度比Windows快很多。这可能是因为Apple Silicon对AI模型的优化非常好。
注意:第一次生成时速度会比较慢,因为需要加载模型。从第二次开始,模型已经加载到内存中,速度会明显加快。
1.7B和0.6B模型效果对比
理论上,1.7B模型因为训练数据更多(17亿条 vs 6亿条),克隆效果会更好。实际测试中:
- 1.7B模型:声音更自然,音色还原度更高,适合对质量要求高的场景
- 0.6B模型:速度更快,效果也不错,适合需要快速生成的场景
建议两个都下载,根据具体需求选择使用。
Voicebox的优势总结
- 完全免费:开源软件,不需要付费购买会员
- 隐私安全:全程本地运行,声音数据不会上传到云端
- 零门槛:不需要懂代码,图形界面操作简单
- 多语言支持:支持23种语言的声音克隆
- 多引擎选择:5种TTS引擎,满足不同需求
- 跨平台:Windows、macOS、Linux全部支持
- API支持:开发者可以通过代码调用
写在最后
Voicebox是我在2026年用过的最惊艳的开源AI工具之一。它把原本需要专业设备和付费服务才能实现的声音克隆,变成了任何人都能免费使用的本地工具。
不管你是做短视频、播客、有声书,还是需要批量配音,Voicebox都能帮你搞定。而且它的克隆效果真的非常逼真,普通人几乎听不出AI克隆和真人录音的区别。
如果你对AI语音技术感兴趣,强烈建议去GitHub上给这个项目点个Star,支持一下开发者。工具地址:官网 voicebox.sh,GitHub项目页面在官网的About页面可以找到。
本文基于Voicebox 0.3.0版本撰写,最新版本为0.5.0,功能可能有所更新。
已发表评论