NVSpeech : Une pipeline intégrée et évolutive pour la modélisation de la parole humaine avec des vocalisations paralangagières
NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations
August 6, 2025
papers.authors: Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu
cs.AI
papers.abstract
Les vocalisations paralangagières, comprenant des sons non verbaux tels que le rire et la respiration, ainsi que des interjections lexicalisées comme "euh" et "oh", sont essentielles à la communication orale naturelle. Malgré leur importance dans la transmission des émotions, des intentions et des indices interactionnels, ces indices restent largement négligés dans les systèmes conventionnels de reconnaissance automatique de la parole (ASR) et de synthèse vocale (TTS). Nous présentons NVSpeech, une pipeline intégrée et évolutive qui relie la reconnaissance et la synthèse des vocalisations paralangagières, englobant la construction de jeux de données, la modélisation ASR et la TTS contrôlable. (1) Nous introduisons un jeu de données annoté manuellement de 48 430 énoncés humains avec 18 catégories paralangagières au niveau des mots. (2) Nous développons le modèle ASR conscient des paralangages, qui traite les indices paralangagiers comme des jetons décodables en ligne (par exemple, "Tu es si drôle [Rire]"), permettant une transcription conjointe lexicale et non verbale. Ce modèle est ensuite utilisé pour annoter automatiquement un grand corpus, le premier jeu de données chinois à grande échelle de 174 179 énoncés (573 heures) avec un alignement au niveau des mots et des indices paralangagiers. (3) Nous affinons des modèles TTS zero-shot sur des données annotées manuellement et automatiquement pour permettre un contrôle explicite des vocalisations paralangagières, autorisant une insertion contextuelle à des positions arbitraires de jetons pour une synthèse vocale humaine. En unifiant la reconnaissance et la génération des vocalisations paralangagières, NVSpeech propose la première pipeline ouverte, à grande échelle et annotée au niveau des mots pour la modélisation de la parole expressive en mandarin, intégrant la reconnaissance et la synthèse de manière évolutive et contrôlable. Les jeux de données et les démonstrations audio sont disponibles à l'adresse https://nvspeech170k.github.io/.
English
Paralinguistic vocalizations-including non-verbal sounds like laughter and
breathing, as well as lexicalized interjections such as "uhm" and "oh"-are
integral to natural spoken communication. Despite their importance in conveying
affect, intent, and interactional cues, such cues remain largely overlooked in
conventional automatic speech recognition (ASR) and text-to-speech (TTS)
systems. We present NVSpeech, an integrated and scalable pipeline that bridges
the recognition and synthesis of paralinguistic vocalizations, encompassing
dataset construction, ASR modeling, and controllable TTS. (1) We introduce a
manually annotated dataset of 48,430 human-spoken utterances with 18 word-level
paralinguistic categories. (2) We develop the paralinguistic-aware ASR model,
which treats paralinguistic cues as inline decodable tokens (e.g., "You're so
funny [Laughter]"), enabling joint lexical and non-verbal transcription. This
model is then used to automatically annotate a large corpus, the first
large-scale Chinese dataset of 174,179 utterances (573 hours) with word-level
alignment and paralingustic cues. (3) We finetune zero-shot TTS models on both
human- and auto-labeled data to enable explicit control over paralinguistic
vocalizations, allowing context-aware insertion at arbitrary token positions
for human-like speech synthesis. By unifying the recognition and generation of
paralinguistic vocalizations, NVSpeech offers the first open, large-scale,
word-level annotated pipeline for expressive speech modeling in Mandarin,
integrating recognition and synthesis in a scalable and controllable manner.
Dataset and audio demos are available at https://nvspeech170k.github.io/.