NCMMSC 2024 教程报告:基于离散编码的语音合成 (Tutorial: Speech Synthesis with Discrete Speech Tokens)
Date:
2024年第十九届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2024)于2024年8月15至18日在新疆乌鲁木齐举行,本次会议由中国计算机学会和中国中文信息学会联合主办,会议同时为中国计算机学会语音对话与听觉专委会(CCF TCSDAP)的学术年会。
语音信号的离散化特征提取及标记化近年来得到广泛关注,是以语言模型范式为核心的语音处理技术的关键支撑,也为高逼真度语音合成及新型生成式任务提供了机会。本报告将系统介绍语音的离散化特征提取及标记化方法,进而详细介绍各类基于离散编码的语音合成系统实现。在第三部分将分析离散语音编码与大语言模型技术的结合现状,并探讨现存的挑战和未来发展方向。