实时变声配音软件RVCV2-0528版本下载
一个基于VITS的简单易用的语音转换(变声器)框架,算法相关经验和成果是b站花儿不哭和Rcell经过半年时间做了上百组实验得出的当前的最优解,注意需要N卡才能玩,A卡目前只能战未来,建议最低N卡750ti以上
安装包为博主加强版,免费使用,包括多款训练好的音源文件和集成入梦虚拟声卡
配置要求
1 win10或win11系统,老显卡驱动要更新到最新版本
2 显卡750TI以上,如需训练音源,需RTX以上显卡,显存越大越好
3 CPU性能越高越推理延迟越低,建议十代酷睿或三代锐龙以上,不满足声音卡顿延迟高
4 清晰干净的麦克风,声卡麦克风或电容麦最优,
相比于传统变声器优点
1 AI变声不吃个人声线,只需要清晰的说化即可,传统变声器只能根据个人声线进行变化
2 可以训练模型,加载各种声线,语气声线多样化
相比于传统变声器缺点
1 延迟高,通常都是0.5-1秒以上,传统变声器最低可以无延迟
2 如果模型不够精细存在咬字不清晰(吞字现象),气息非常奇怪(气泡音),感情波动就会失真,非常吃模型的音源
3 吃配置较高,需要CPU和GPU双重占用,配置低就无法使用,RVC目前只能兼容N卡
4 兼容性还是太差了,AI变声目前还不成熟,闪退稳定性有待优化
博主观点
1 使用的时候建议独立声卡或者麦克风,耳机噪音过大会非常影响到AI变声效果,麦克风音质越好,效果越好
2 对CPU和GPU双重资源的压力,部分配置低的用户可能带不动,建议有独立显卡在使用
3 存在延迟,如果使用MME协议输出,延迟在0.5秒到1秒,如果麦克风音质太低,设置低延迟声音会卡顿
4 说话的时候不能大喊大叫,必须平稳说话,否则声音就变成气音
5 只是发短语音消息而非实时通话,声音还是非常棒的
实时变声设置
设置建议
1.响应阈值
你说话声音超过多少才可以被检测并转换的阈值,只有超过这个阈值声音才会被录入,
拉到0则不会被检测,一般出现吞字的现象则需要把阈值拉低,或者降低降噪
2.音调设置
男转女一般在+10,
女转男一般在-10,这些都要根据自己的音色来,不是死板的,可以灵活进行调整
3.index rate
越往左边越接近底模,越往右边越接近模型的声音,但如果数值过高可能会影响自己的口齿,出现口糊,口齿不清的情况。
4.采样长度
最影响转换延迟的东西,数值越小延迟越低,但同时CPU的占用就会越高,也会影响自己的模型效果,甚至会出现不停重复一个字的“机关枪现象”,个人建议在0.8附近。
5.淡入淡出长度
差不多就是尾音的长短,小了声音清脆但容易断字,大了声音连贯但音色会糊。根据自己听感来。
6.额外推理时长
个人认为这个通常情况下影响不大,长度可以和采样时长保持一致,这样说话连续性会略强
软件一键启动包下载地址如下: