NVSpeech: Una canalización integrada y escalable para el modelado de habla similar a la humana con vocalizaciones paralingüísticas
NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations
August 6, 2025
Autores: Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu
cs.AI
Resumen
Las vocalizaciones paralingüísticas, que incluyen sonidos no verbales como la risa y la respiración, así como interjecciones lexicalizadas como "eh" y "oh", son fundamentales para la comunicación oral natural. A pesar de su importancia en la transmisión de afecto, intención y señales interactivas, estas señales siguen siendo en gran medida ignoradas en los sistemas convencionales de reconocimiento automático del habla (ASR, por sus siglas en inglés) y de conversión de texto a voz (TTS). Presentamos NVSpeech, una canalización integrada y escalable que conecta el reconocimiento y la síntesis de vocalizaciones paralingüísticas, abarcando la construcción de conjuntos de datos, el modelado de ASR y el TTS controlable. (1) Introducimos un conjunto de datos anotado manualmente de 48,430 expresiones habladas por humanos con 18 categorías paralingüísticas a nivel de palabra. (2) Desarrollamos el modelo ASR consciente de lo paralingüístico, que trata las señales paralingüísticas como tokens decodificables en línea (por ejemplo, "Eres tan gracioso [Risa]"), permitiendo la transcripción conjunta de elementos léxicos y no verbales. Este modelo se utiliza luego para anotar automáticamente un gran corpus, el primer conjunto de datos a gran escala en chino de 174,179 expresiones (573 horas) con alineación a nivel de palabra y señales paralingüísticas. (3) Ajustamos modelos TTS de cero disparos tanto en datos etiquetados manualmente como automáticamente para permitir un control explícito sobre las vocalizaciones paralingüísticas, facilitando la inserción consciente del contexto en posiciones de token arbitrarias para una síntesis de voz más humana. Al unificar el reconocimiento y la generación de vocalizaciones paralingüísticas, NVSpeech ofrece la primera canalización abierta, a gran escala y anotada a nivel de palabra para el modelado de habla expresiva en mandarín, integrando reconocimiento y síntesis de manera escalable y controlable. El conjunto de datos y demostraciones de audio están disponibles en https://nvspeech170k.github.io/.
English
Paralinguistic vocalizations-including non-verbal sounds like laughter and
breathing, as well as lexicalized interjections such as "uhm" and "oh"-are
integral to natural spoken communication. Despite their importance in conveying
affect, intent, and interactional cues, such cues remain largely overlooked in
conventional automatic speech recognition (ASR) and text-to-speech (TTS)
systems. We present NVSpeech, an integrated and scalable pipeline that bridges
the recognition and synthesis of paralinguistic vocalizations, encompassing
dataset construction, ASR modeling, and controllable TTS. (1) We introduce a
manually annotated dataset of 48,430 human-spoken utterances with 18 word-level
paralinguistic categories. (2) We develop the paralinguistic-aware ASR model,
which treats paralinguistic cues as inline decodable tokens (e.g., "You're so
funny [Laughter]"), enabling joint lexical and non-verbal transcription. This
model is then used to automatically annotate a large corpus, the first
large-scale Chinese dataset of 174,179 utterances (573 hours) with word-level
alignment and paralingustic cues. (3) We finetune zero-shot TTS models on both
human- and auto-labeled data to enable explicit control over paralinguistic
vocalizations, allowing context-aware insertion at arbitrary token positions
for human-like speech synthesis. By unifying the recognition and generation of
paralinguistic vocalizations, NVSpeech offers the first open, large-scale,
word-level annotated pipeline for expressive speech modeling in Mandarin,
integrating recognition and synthesis in a scalable and controllable manner.
Dataset and audio demos are available at https://nvspeech170k.github.io/.