Voicebox：2026年最强开源声音克隆工具，3秒克隆你的声音，完全免费本地运行

Tech指南 2026-05-23 YouTube 208 次阅读

Voicebox：2026年最强开源声音克隆工具，3秒克隆你的声音，完全免费本地运行

你有没有想过，只需要3秒钟的音频样本，就能克隆出一个和你声音几乎一模一样的AI语音？而且完全免费、不需要联网、不会泄露隐私？

今天要介绍的 Voicebox，就是目前最强大的开源声音克隆工具。它支持5种TTS引擎、23种语言，全程运行在你自己的电脑上，不需要花一分钱，也不需要懂代码。

什么是Voicebox？

Voicebox是一款托管在GitHub上的开源声音克隆工具，官网地址是 voicebox.sh。它的核心能力是通过AI模型克隆你的声音，然后用克隆出来的音色去朗读任意文本。

简单来说，它的原理是：

你提供一段声音样本（可以是录音、上传音频文件，甚至录制系统内正在播放的声音）
AI分析你的音色特征
用你的音色去朗读你输入的任何文字

克隆出来的声音效果非常逼真，甚至比很多付费工具还要好。

Voicebox的核心功能

支持5种TTS引擎

Voicebox最强大的地方在于它内置了多种TTS引擎，你可以根据自己的需求选择不同的模型：

引擎名称	模型大小	支持语言	特点
Qwen TTS 1.7B	4.23GB	10种语言	效果最好，克隆质量最高
Qwen TTS 0.6B	2.34GB	10种语言	轻量版，速度更快
ChatterBox	-	多语言	速度快，适合快速生成
ChatterBox Turbo	-	多语言	ChatterBox的加速版
Lux TTS	-	仅英文	英文专用引擎

其中 Qwen TTS 是阿里巴巴发布的高质量多语言文本转语音模型，1.7B版本代表它使用了17亿条数据进行训练，理论上克隆效果最好。

支持23种语言

虽然软件界面目前只有英文，但它在语音克隆时完全支持中文、英语、法语、德语、西班牙语、俄语、日语、韩语等23种语言。你可以用中文的声音样本，让它克隆出英文发音，反之亦然。

三种声音采集方式

Voicebox提供了灵活的声音源采集方式：

上传音频文件：直接选择你已有的声音文件
麦克风录音：通过电脑麦克风实时录制你的声音
系统内录：捕获电脑正在播放的任何声音（比如电影、短视频里的声音）

内置时间线编辑器

软件自带一个简单的时间线编辑器（Stories功能），你可以：

同时编辑多段克隆语音
将不同片段拖拽到轨道上拼接
制作完整的有声内容

音效添加

Voicebox还支持给克隆的声音添加各种特效：

Robotic：机器人风格
Radio：电台主持人风格
Echo：回音效果
Bass Boost：重低音增强

API支持

对于开发者，Voicebox还提供了API接口，你可以通过编写代码直接调用它的功能，而不需要操作软件界面。访问本地API文档地址即可查看所有可用接口。

如何下载和安装Voicebox

第一步：下载安装包

访问Voicebox官网 voicebox.sh，点击页面中间的黄色 Download 按钮，页面会自动跳转到底部的下载区域。

根据你的操作系统选择对应的版本：

Mac用户：
- M系列芯片（M1/M2/M3/M4/M5）选择左侧按钮
- Intel芯片选择右侧按钮
Windows用户：选择Windows按钮
Linux用户：选择Linux按钮

第二步：安装软件

下载完成后，双击安装包，一路点击 Next 选择安装位置即可完成安装。安装完成后，桌面上会出现一个金色麦克风图标。

第三步：下载AI模型

首次打开软件后，需要在模型页面下载TTS模型才能使用。建议至少下载：

Qwen TTS 1.7B：效果最好，适合对质量要求高的场景
Qwen TTS 0.6B：轻量版，生成速度更快
Whisper Base：用于语音转文字功能

第四步：安装CUDA（Windows用户必看）

如果你使用的是Windows电脑且有英伟达显卡，强烈建议安装CUDA。安装CUDA后，软件可以调用显卡加速，声音克隆速度会有显著提升。

安装CUDA前后速度对比：

模型	无CUDA	有CUDA	提升幅度
Qwen 1.7B	~90秒	~20-40秒	2-4倍
Qwen 0.6B	~54秒	~30秒	约2倍
ChatterBox	~50秒	~6秒	约8倍

Mac用户不需要担心这个问题，macOS系统会自动利用Apple Silicon的性能。

如何使用Voicebox克隆声音

步骤一：创建声音源

点击软件左上角的 Create Voice 按钮
选择声音采集方式（上传文件/麦克风录音/系统内录）
选择你准备好的音频文件

步骤二：填写声音信息

文字内容：填写音频文件中说的文字内容（这个很重要，AI需要知道这段声音说了什么）
声音名称：给这个声音源取一个名字
语言选择：选择音频原始语言（中文音频选择CHINESE）

步骤三：选择模型并生成

在生成页面选择要使用的TTS模型
输入你想让AI用你的声音朗读的文字
选择目标语言
选择是否添加音效
点击黄色按钮开始生成

生成完成后，软件会自动播放克隆出来的语音。你可以试听效果，不满意可以点击 Regenerate 重新生成。

步骤四：导出音频

满意后，点击语音记录右侧的三个点，选择 Export Audio，选择保存位置即可导出为音频文件。

不同设备的性能对比

我在不同设备上测试了Voicebox的克隆速度（相同文字内容）：

Windows电脑（无CUDA）

Qwen 1.7B：约90秒
Qwen 0.6B：约54秒
ChatterBox：约50秒

Windows电脑（有CUDA）

Qwen 1.7B：最快20秒，最慢40多秒
Qwen 0.6B：约30秒
ChatterBox：约6秒

MacBook Pro M1 Max

Qwen 1.7B：约8秒
Qwen 0.6B：约8秒

Mac的表现让人意外，0.6B和1.7B的速度基本一致，而且整体速度比Windows快很多。这可能是因为Apple Silicon对AI模型的优化非常好。

注意：第一次生成时速度会比较慢，因为需要加载模型。从第二次开始，模型已经加载到内存中，速度会明显加快。

1.7B和0.6B模型效果对比

理论上，1.7B模型因为训练数据更多（17亿条 vs 6亿条），克隆效果会更好。实际测试中：

1.7B模型：声音更自然，音色还原度更高，适合对质量要求高的场景
0.6B模型：速度更快，效果也不错，适合需要快速生成的场景

建议两个都下载，根据具体需求选择使用。

Voicebox的优势总结

完全免费：开源软件，不需要付费购买会员
隐私安全：全程本地运行，声音数据不会上传到云端
零门槛：不需要懂代码，图形界面操作简单
多语言支持：支持23种语言的声音克隆
多引擎选择：5种TTS引擎，满足不同需求
跨平台：Windows、macOS、Linux全部支持
API支持：开发者可以通过代码调用

写在最后

Voicebox是我在2026年用过的最惊艳的开源AI工具之一。它把原本需要专业设备和付费服务才能实现的声音克隆，变成了任何人都能免费使用的本地工具。

不管你是做短视频、播客、有声书，还是需要批量配音，Voicebox都能帮你搞定。而且它的克隆效果真的非常逼真，普通人几乎听不出AI克隆和真人录音的区别。

如果你对AI语音技术感兴趣，强烈建议去GitHub上给这个项目点个Star，支持一下开发者。工具地址：官网 voicebox.sh，GitHub项目页面在官网的About页面可以找到。

本文基于Voicebox 0.3.0版本撰写，最新版本为0.5.0，功能可能有所更新。

已发表评论

暂无评论，快来抢沙发~

Voicebox：2026年最强开源声音克隆工具，3秒克隆你的声音，完全免费本地运行

Voicebox：2026年最强开源声音克隆工具，3秒克隆你的声音，完全免费本地运行

什么是Voicebox？

Voicebox的核心功能

支持5种TTS引擎

支持23种语言

三种声音采集方式

内置时间线编辑器

音效添加

API支持

如何下载和安装Voicebox

第一步：下载安装包

第二步：安装软件

第三步：下载AI模型

第四步：安装CUDA（Windows用户必看）

如何使用Voicebox克隆声音

步骤一：创建声音源

步骤二：填写声音信息

步骤三：选择模型并生成

步骤四：导出音频

不同设备的性能对比

Windows电脑（无CUDA）

Windows电脑（有CUDA）

MacBook Pro M1 Max

1.7B和0.6B模型效果对比

Voicebox的优势总结

写在最后

已发表评论

搜索站内文章

Tech指南

热门文章

AI换脸完整教程 2025：Nano Banana + WAN视频大模型，从图片到视频一站式搞定

Ai数字人教程：免费制作任何形象的数字人，完全免费自定义，2025最新！

【免费神器】模糊照片秒变高清！本地运行的AI修复工具Upscayl实测

如何使用Docker部署n8n，配置数据持久化 2025最新视频教程

微信公众号文章抓取神器：不只是爬虫

我如何用AI机器人自动生产100篇公众号爆文？Automa配合DeepSeek全流程拆解

文字转语音终极教程：如何用虚拟人物生成带情感的音频（含方言）

什么是AI Agent、AI workflow？智能体又是什么？一个视频讲明白

标签云