ChatPaper.aiChatPaper

NVSpeech: Eine integrierte und skalierbare Pipeline zur Modellierung menschlicher Sprache mit paralinguistischen Vokalisationen

NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

August 6, 2025
papers.authors: Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu
cs.AI

papers.abstract

Paralinguistische Vokalisationen – einschließlich nonverbaler Laute wie Lachen und Atmen sowie lexikalisierter Interjektionen wie „ähm“ und „oh“ – sind ein wesentlicher Bestandteil der natürlichen gesprochenen Kommunikation. Trotz ihrer Bedeutung bei der Vermittlung von Emotionen, Absichten und interaktionalen Hinweisen werden solche Hinweise in konventionellen Systemen zur automatischen Spracherkennung (ASR) und Sprachsynthese (TTS) weitgehend übersehen. Wir stellen NVSpeech vor, eine integrierte und skalierbare Pipeline, die die Erkennung und Synthese paralinguistischer Vokalisationen verbindet und die Erstellung von Datensätzen, ASR-Modellierung und kontrollierbare TTS umfasst. (1) Wir führen einen manuell annotierten Datensatz von 48.430 menschlich gesprochenen Äußerungen mit 18 paralinguistischen Kategorien auf Wortebene ein. (2) Wir entwickeln das paralinguistisch bewusste ASR-Modell, das paralinguistische Hinweise als inline dekodierbare Tokens behandelt (z. B. „Du bist so lustig [Lachen]“) und so eine gemeinsame lexikalische und nonverbale Transkription ermöglicht. Dieses Modell wird dann verwendet, um einen großen Korpus automatisch zu annotieren, den ersten groß angelegten chinesischen Datensatz von 174.179 Äußerungen (573 Stunden) mit wortgenauer Ausrichtung und paralinguistischen Hinweisen. (3) Wir feinen Zero-Shot-TTS-Modelle sowohl auf menschlich als auch automatisch annotierten Daten an, um eine explizite Kontrolle über paralinguistische Vokalisationen zu ermöglichen und so eine kontextbewusste Einfügung an beliebigen Token-Positionen für eine menschenähnliche Sprachsynthese zu erlauben. Durch die Vereinheitlichung der Erkennung und Generierung paralinguistischer Vokalisationen bietet NVSpeech die erste offene, groß angelegte, wortgenau annotierte Pipeline für die Modellierung expressiver Sprache in Mandarin, die Erkennung und Synthese auf skalierbare und kontrollierbare Weise integriert. Datensätze und Audio-Demos sind unter https://nvspeech170k.github.io/ verfügbar.
English
Paralinguistic vocalizations-including non-verbal sounds like laughter and breathing, as well as lexicalized interjections such as "uhm" and "oh"-are integral to natural spoken communication. Despite their importance in conveying affect, intent, and interactional cues, such cues remain largely overlooked in conventional automatic speech recognition (ASR) and text-to-speech (TTS) systems. We present NVSpeech, an integrated and scalable pipeline that bridges the recognition and synthesis of paralinguistic vocalizations, encompassing dataset construction, ASR modeling, and controllable TTS. (1) We introduce a manually annotated dataset of 48,430 human-spoken utterances with 18 word-level paralinguistic categories. (2) We develop the paralinguistic-aware ASR model, which treats paralinguistic cues as inline decodable tokens (e.g., "You're so funny [Laughter]"), enabling joint lexical and non-verbal transcription. This model is then used to automatically annotate a large corpus, the first large-scale Chinese dataset of 174,179 utterances (573 hours) with word-level alignment and paralingustic cues. (3) We finetune zero-shot TTS models on both human- and auto-labeled data to enable explicit control over paralinguistic vocalizations, allowing context-aware insertion at arbitrary token positions for human-like speech synthesis. By unifying the recognition and generation of paralinguistic vocalizations, NVSpeech offers the first open, large-scale, word-level annotated pipeline for expressive speech modeling in Mandarin, integrating recognition and synthesis in a scalable and controllable manner. Dataset and audio demos are available at https://nvspeech170k.github.io/.
PDF02August 13, 2025