NVSpeech: 패럴링귀스틱 보컬리제이션을 통한 인간과 유사한 음성 모델링을 위한 통합 및 확장 가능 파이프라인
NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations
August 6, 2025
저자: Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu
cs.AI
초록
파라링구스틱 발성(Paralinguistic vocalizations)—웃음과 호흡과 같은 비언어적 소리뿐만 아니라 "음"과 "오"와 같은 어휘화된 감탄사—은 자연스러운 구어 의사소통에서 필수적인 요소이다. 이러한 단서들은 감정, 의도, 상호작용 신호를 전달하는 데 중요함에도 불구하고, 기존의 자동 음성 인식(ASR) 및 텍스트-음성 변환(TTS) 시스템에서는 대부분 간과되어 왔다. 본 논문에서는 NVSpeech를 소개한다. 이는 데이터셋 구축, ASR 모델링, 제어 가능한 TTS를 포함하여 파라링구스틱 발성의 인식과 합성을 연결하는 통합적이고 확장 가능한 파이프라인이다. (1) 18개의 단어 수준 파라링구스틱 범주로 분류된 48,430개의 인간 발화를 수동으로 주석 처리한 데이터셋을 소개한다. (2) 파라링구스틱 단서를 인라인 디코딩 가능한 토큰(예: "You're so funny [Laughter]")으로 처리하여 어휘적 및 비언어적 전사를 동시에 수행하는 파라링구스틱 인식 ASR 모델을 개발한다. 이 모델은 대규모 코퍼스를 자동으로 주석 처리하는 데 사용되며, 단어 수준 정렬과 파라링구스틱 단서가 포함된 174,179개의 발화(573시간)로 구성된 최초의 대규모 중국어 데이터셋을 생성한다. (3) 인간 주석 및 자동 주석 데이터를 기반으로 제로샷 TTS 모델을 미세 조정하여 파라링구스틱 발성을 명시적으로 제어할 수 있도록 한다. 이를 통해 임의의 토큰 위치에 상황 인식 삽입이 가능하여 인간과 유사한 음성 합성을 달성한다. NVSpeech는 파라링구스틱 발성의 인식과 생성을 통합함으로써, 중국어에서 표현적 음성 모델링을 위한 최초의 개방형 대규모 단어 수준 주석 파이프라인을 제공하며, 확장 가능하고 제어 가능한 방식으로 인식과 합성을 통합한다. 데이터셋 및 오디오 데모는 https://nvspeech170k.github.io/에서 확인할 수 있다.
English
Paralinguistic vocalizations-including non-verbal sounds like laughter and
breathing, as well as lexicalized interjections such as "uhm" and "oh"-are
integral to natural spoken communication. Despite their importance in conveying
affect, intent, and interactional cues, such cues remain largely overlooked in
conventional automatic speech recognition (ASR) and text-to-speech (TTS)
systems. We present NVSpeech, an integrated and scalable pipeline that bridges
the recognition and synthesis of paralinguistic vocalizations, encompassing
dataset construction, ASR modeling, and controllable TTS. (1) We introduce a
manually annotated dataset of 48,430 human-spoken utterances with 18 word-level
paralinguistic categories. (2) We develop the paralinguistic-aware ASR model,
which treats paralinguistic cues as inline decodable tokens (e.g., "You're so
funny [Laughter]"), enabling joint lexical and non-verbal transcription. This
model is then used to automatically annotate a large corpus, the first
large-scale Chinese dataset of 174,179 utterances (573 hours) with word-level
alignment and paralingustic cues. (3) We finetune zero-shot TTS models on both
human- and auto-labeled data to enable explicit control over paralinguistic
vocalizations, allowing context-aware insertion at arbitrary token positions
for human-like speech synthesis. By unifying the recognition and generation of
paralinguistic vocalizations, NVSpeech offers the first open, large-scale,
word-level annotated pipeline for expressive speech modeling in Mandarin,
integrating recognition and synthesis in a scalable and controllable manner.
Dataset and audio demos are available at https://nvspeech170k.github.io/.