ChatPaper.aiChatPaper

NVSpeech: Una Pipeline Integrata e Scalabile per la Modellazione del Linguaggio Umano con Vocalizzazioni Paralinguistiche

NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

August 6, 2025
Autori: Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu
cs.AI

Abstract

Le vocalizzazioni paralinguistiche - inclusi suoni non verbali come risate e respiri, nonché interiezioni lessicalizzate come "uhm" e "oh" - sono parte integrante della comunicazione parlata naturale. Nonostante la loro importanza nel trasmettere affetto, intenti e segnali interazionali, tali segnali rimangono ampiamente trascurati nei sistemi convenzionali di riconoscimento automatico del parlato (ASR) e di sintesi vocale (TTS). Presentiamo NVSpeech, una pipeline integrata e scalabile che colma il divario tra il riconoscimento e la sintesi delle vocalizzazioni paralinguistiche, comprendendo la costruzione di dataset, la modellazione ASR e la TTS controllabile. (1) Introduciamo un dataset annotato manualmente di 48.430 espressioni pronunciate da esseri umani con 18 categorie paralinguistiche a livello di parola. (2) Sviluppiamo il modello ASR consapevole delle caratteristiche paralinguistiche, che tratta i segnali paralinguistici come token decodificabili in linea (ad esempio, "Sei così divertente [Risata]"), consentendo la trascrizione congiunta lessicale e non verbale. Questo modello viene poi utilizzato per annotare automaticamente un ampio corpus, il primo dataset cinese su larga scala di 174.179 espressioni (573 ore) con allineamento a livello di parola e segnali paralinguistici. (3) Ottimizziamo modelli TTS zero-shot su dati etichettati sia manualmente che automaticamente per consentire un controllo esplicito sulle vocalizzazioni paralinguistiche, permettendo l'inserimento consapevole del contesto in posizioni arbitrarie dei token per una sintesi vocale simile a quella umana. Unificando il riconoscimento e la generazione delle vocalizzazioni paralinguistiche, NVSpeech offre la prima pipeline aperta, su larga scala e annotata a livello di parola per la modellazione del parlato espressivo in mandarino, integrando riconoscimento e sintesi in modo scalabile e controllabile. Il dataset e le demo audio sono disponibili all'indirizzo https://nvspeech170k.github.io/.
English
Paralinguistic vocalizations-including non-verbal sounds like laughter and breathing, as well as lexicalized interjections such as "uhm" and "oh"-are integral to natural spoken communication. Despite their importance in conveying affect, intent, and interactional cues, such cues remain largely overlooked in conventional automatic speech recognition (ASR) and text-to-speech (TTS) systems. We present NVSpeech, an integrated and scalable pipeline that bridges the recognition and synthesis of paralinguistic vocalizations, encompassing dataset construction, ASR modeling, and controllable TTS. (1) We introduce a manually annotated dataset of 48,430 human-spoken utterances with 18 word-level paralinguistic categories. (2) We develop the paralinguistic-aware ASR model, which treats paralinguistic cues as inline decodable tokens (e.g., "You're so funny [Laughter]"), enabling joint lexical and non-verbal transcription. This model is then used to automatically annotate a large corpus, the first large-scale Chinese dataset of 174,179 utterances (573 hours) with word-level alignment and paralingustic cues. (3) We finetune zero-shot TTS models on both human- and auto-labeled data to enable explicit control over paralinguistic vocalizations, allowing context-aware insertion at arbitrary token positions for human-like speech synthesis. By unifying the recognition and generation of paralinguistic vocalizations, NVSpeech offers the first open, large-scale, word-level annotated pipeline for expressive speech modeling in Mandarin, integrating recognition and synthesis in a scalable and controllable manner. Dataset and audio demos are available at https://nvspeech170k.github.io/.
PDF12August 13, 2025