NVSpeech: Um Pipeline Integrado e Escalável para Modelagem de Fala Humanóide com Vocalizações Paralinguísticas
NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations
August 6, 2025
Autores: Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu
cs.AI
Resumo
Vocalizações paralinguísticas - incluindo sons não verbais como risos e respirações, bem como interjeições lexicalizadas como "uhm" e "oh" - são fundamentais para a comunicação falada natural. Apesar de sua importância na transmissão de afeto, intenção e sinais interacionais, tais pistas permanecem amplamente negligenciadas nos sistemas convencionais de reconhecimento automático de fala (ASR) e de conversão de texto em fala (TTS). Apresentamos o NVSpeech, um pipeline integrado e escalável que conecta o reconhecimento e a síntese de vocalizações paralinguísticas, abrangendo a construção de conjuntos de dados, modelagem ASR e TTS controlável. (1) Introduzimos um conjunto de dados anotado manualmente com 48.430 enunciados falados por humanos, contendo 18 categorias paralinguísticas em nível de palavra. (2) Desenvolvemos o modelo ASR consciente de paralinguagem, que trata pistas paralinguísticas como tokens decodificáveis inline (por exemplo, "Você é tão engraçado [Riso]"), permitindo a transcrição conjunta de elementos lexicais e não verbais. Esse modelo é então usado para anotar automaticamente um grande corpus, o primeiro conjunto de dados em larga escala em chinês com 174.179 enunciados (573 horas) com alinhamento em nível de palavra e pistas paralinguísticas. (3) Ajustamos modelos TTS zero-shot em dados anotados manualmente e automaticamente para permitir controle explícito sobre vocalizações paralinguísticas, possibilitando a inserção contextualizada em posições arbitrárias de tokens para síntese de fala natural. Ao unificar o reconhecimento e a geração de vocalizações paralinguísticas, o NVSpeech oferece o primeiro pipeline aberto, em larga escala e anotado em nível de palavra para modelagem de fala expressiva em mandarim, integrando reconhecimento e síntese de forma escalável e controlável. O conjunto de dados e demonstrações de áudio estão disponíveis em https://nvspeech170k.github.io/.
English
Paralinguistic vocalizations-including non-verbal sounds like laughter and
breathing, as well as lexicalized interjections such as "uhm" and "oh"-are
integral to natural spoken communication. Despite their importance in conveying
affect, intent, and interactional cues, such cues remain largely overlooked in
conventional automatic speech recognition (ASR) and text-to-speech (TTS)
systems. We present NVSpeech, an integrated and scalable pipeline that bridges
the recognition and synthesis of paralinguistic vocalizations, encompassing
dataset construction, ASR modeling, and controllable TTS. (1) We introduce a
manually annotated dataset of 48,430 human-spoken utterances with 18 word-level
paralinguistic categories. (2) We develop the paralinguistic-aware ASR model,
which treats paralinguistic cues as inline decodable tokens (e.g., "You're so
funny [Laughter]"), enabling joint lexical and non-verbal transcription. This
model is then used to automatically annotate a large corpus, the first
large-scale Chinese dataset of 174,179 utterances (573 hours) with word-level
alignment and paralingustic cues. (3) We finetune zero-shot TTS models on both
human- and auto-labeled data to enable explicit control over paralinguistic
vocalizations, allowing context-aware insertion at arbitrary token positions
for human-like speech synthesis. By unifying the recognition and generation of
paralinguistic vocalizations, NVSpeech offers the first open, large-scale,
word-level annotated pipeline for expressive speech modeling in Mandarin,
integrating recognition and synthesis in a scalable and controllable manner.
Dataset and audio demos are available at https://nvspeech170k.github.io/.