公司新闻
行业新闻
AI智能语音模块之AI智能语音合成技术

行业新闻|2023-08-21|YIPPEE

    语音合成是通过机械和电子方法产生人工语音的技术。一般来说,语音合成就是让机器模仿人类说话。也就是说,输入一段文字,最后输出一段声音。

    语音合成是一个将文本转化为语音的过程,类似于人类的嘴巴。目前,语音合成技术主要应用于地图导航、语音助手、教育、娱乐等软件应用,以及智能扬声器、家用电器、机器人等硬件设备。

    AI智能语音模块语音合成系统通常包括两个模块:前端和后端。前端模块主要分析输入文本,提取后端模块所需的语言信息。对于中文合成系统,前端模块一般包括文本正则化、分词、词性预测、多音字消歧、节奏预测等子模块。根据前端分析结果,后端模块通过一定的方法生成语音波形。后端模块一般分为两条技术主线:基于统计参数建模的语音合成,基于单元选择和波形拼接的语音合成。

    现阶段的语音合成系统可以分为三种类型:1。参数语音合成系统。2.拼接语音合成系统。3.基于波形的统计合成系统。其中,参数语音合成系统和拼接语音合成系统是目前各大公司的主流在线合成系统,基于波形的统计合成系统的方法还处于研究阶段,是目前研究的热点。

    1参数语音合成系统的特点是,在语音分析阶段,语音波形需要通过声码器转换为频谱、基频、时长等语音或节奏参数。在建模阶段建模语音参数,在语音合成阶段,时域语音信号由声码器预测的语音参数还原。参数语音合成系统的优点是模型尺寸小,模型参数调整方便,合成语音相对稳定。

    2、拼接语音合成系统的特点是将原始录音剪切成基本单元存储,而不是参数化原始录音。在合成过程中,通过一些算法或模型计算每个单元的目标成本和连接成本,最后通过Viterbi算法和PSOLA或WSOLA等信号处理方法“拼接”合成语音。因此,拼接语音合成的优点是音质好,不受语音单元参数化音质的损失。但是,在数据库小的情况下,合成语音韵需要稳定,因为有时候选择不到合适的语音单元。

    3WaveNet波形统计语音合成的主要单元是卷积神经网络。该方法的特点是使用神经网络直接预测合成语音波形的每个采样点,而不是参数化语音信号。优点是音质比参数合成系统好,略差于拼接合成,但比拼接合成系统更稳定。缺点是合成时间慢,因为需要预测每个采样点。