# 人工智能大作业
歌声音色转换模型,通过 SoftVC 内容编码器提取源音频语音特征,与 F0 同时输入 VITS 替换原本的文本输入达到歌声转换的效果。同时,更换声码器为 NSF HiFiGAN 解决断音问题。
# SoftVC
-
本文探讨了自监督表示学习在语音转换中的应用。作者比较了使用离散语音单元和软语音单元作为输入特征的有效性,并发现虽然离散化可以去除说话者信息,但也会丢失一些语言内容,导致发音错误。为了解决这个问题,作者提出使用通过预测离散单元分布来学习的软语音单元。与离散单元相比,软单元在可理解性和自然性方面有所提高,并且在跨语言语音转换中更好地转移。作者描述了用于比较的语音转换系统,包括三个组件:内容编码器、声学模型和声码器。内容编码器从输入音频中提取离散或软语音单元,其中软内容编码器被训练用于预测离散单元的分布。声学模型将语音单元转换为目标频谱图,声码器将频谱图转换为音频波形。作者在两个任务中比较了离散和软语音单元:同语言和跨语言语音转换。结果表明,软语音单元提高了可理解性和自然性,并且在未知语言中更好地转移。总体而言,所提出的软语音单元可以有效地保留更多的内容信息,并提高转换语音的可理解性和自然性。
-
研究结果显示,与离散单元相比,软语音单元在英语中提高了转换语音的可理解性和自然性。然而,在跨语言测试中,软单元导致说话者相似性下降,表明保留了源语音的口音信息。研究提出在未来研究中使用软语音单元进行任意语音转换。
语音转换
# VITS
- 本文提出了一种端到端的文本到语音方法,该方法生成的音频比当前的两阶段模型更自然。该方法采用了一个带有归一化流和对抗训练过程的变分自动编码器(VAE),从而提高了生成建模的表达能力。作者还提出了一种随机时长预测器,用于从输入文本中合成具有不同节奏的语音。通过对潜变量进行不确定性建模和随机时长预测器,该方法表达了自然的一对多关系,即文本输入可以以不同的音高和节奏进行朗读。在单个发言者数据集上进行的主观人类评估表明,该方法优于最好的公开可用的 TTS 系统,并达到了与真实数据相当的平均意见分数。该方法主要在前三个小节中进行了描述:条件 VAE 公式化;通过变分推断得到的对齐估计;以及用于改善合成质量的对抗训练。训练损失是数据的不可计算边缘对数似然的负证据下界(ELBO),包括重构损失和 KL 散度。先验编码器的输入条件由从文本中提取的音素和音素与潜变量之间的对齐组成。作者使用目标语音的线性尺度谱图作为输入,而不是 mel 谱图,以提供更高分辨率的信息给后验编码器。最后,作者公开了演示页面和源代码。
- 本文提出了一个并行的端到端语音合成系统,称为 VITS,它使用了条件变分自动编码器(VAE)和对抗学习。该模型包括一个随机时长预测器,用于生成各种语音节奏。该系统直接从文本合成语音波形,而无需预定义的中间语音表示。实验结果表明,VITS 优于两阶段 TTS 系统,并达到了接近人类水平的质量。所提出的系统预计能简化训练过程,并在各种语音合成任务中提高性能。当前方法将两个分离的生成流程集成到 TTS 系统中,但面临文本预处理的挑战,这可能通过自监督学习语言表示来解决。作者计划在未来发布源代码和预训练模型供研究使用。
在语音合成领域,VAE 被应用于生成语音风格和韵律。此外,VAE 还可以通过增强先验和后验分布的表达能力来提高性能。在本文中,研究人员将 VAE 应用于端到端的文本转语音系统,并通过引入正则化流来增强先验分布的表示能力,从而生成更加真实的样本。
语音合成