ChatPaper.aiChatPaper

NVSpeech: Интегрированный и масштабируемый конвейер для моделирования человеческой речи с паралингвистическими вокализациями

NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

August 6, 2025
Авторы: Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu
cs.AI

Аннотация

Паралингвистические вокализации, включая невербальные звуки, такие как смех и дыхание, а также лексикализованные междометия, например, "ээ" и "ох", являются неотъемлемой частью естественного устного общения. Несмотря на их важность в передаче эмоций, намерений и интерактивных сигналов, такие элементы остаются в значительной степени упущенными в традиционных системах автоматического распознавания речи (ASR) и синтеза речи (TTS). Мы представляем NVSpeech — интегрированный и масштабируемый конвейер, который объединяет распознавание и синтез паралингвистических вокализаций, охватывая создание наборов данных, моделирование ASR и управляемый TTS. (1) Мы представляем вручную аннотированный набор данных из 48 430 человеческих высказываний с 18 категориями паралингвистических элементов на уровне слов. (2) Мы разрабатываем модель ASR, учитывающую паралингвистические сигналы, которая рассматривает их как встроенные декодируемые токены (например, "Ты такой смешной [Смех]"), что позволяет осуществлять совместную транскрипцию лексических и невербальных элементов. Эта модель затем используется для автоматической аннотации крупного корпуса — первого крупномасштабного набора данных на китайском языке, содержащего 174 179 высказываний (573 часа) с выравниванием на уровне слов и паралингвистическими сигналами. (3) Мы дообучаем модели TTS с нулевым обучением на данных, аннотированных как вручную, так и автоматически, чтобы обеспечить явный контроль над паралингвистическими вокализациями, позволяя контекстно-зависимую вставку на произвольных позициях токенов для синтеза речи, близкого к человеческому. Объединяя распознавание и генерацию паралингвистических вокализаций, NVSpeech предлагает первый открытый, крупномасштабный, аннотированный на уровне слов конвейер для моделирования выразительной речи на мандаринском языке, интегрируя распознавание и синтез в масштабируемой и управляемой манере. Набор данных и аудиодемонстрации доступны по адресу https://nvspeech170k.github.io/.
English
Paralinguistic vocalizations-including non-verbal sounds like laughter and breathing, as well as lexicalized interjections such as "uhm" and "oh"-are integral to natural spoken communication. Despite their importance in conveying affect, intent, and interactional cues, such cues remain largely overlooked in conventional automatic speech recognition (ASR) and text-to-speech (TTS) systems. We present NVSpeech, an integrated and scalable pipeline that bridges the recognition and synthesis of paralinguistic vocalizations, encompassing dataset construction, ASR modeling, and controllable TTS. (1) We introduce a manually annotated dataset of 48,430 human-spoken utterances with 18 word-level paralinguistic categories. (2) We develop the paralinguistic-aware ASR model, which treats paralinguistic cues as inline decodable tokens (e.g., "You're so funny [Laughter]"), enabling joint lexical and non-verbal transcription. This model is then used to automatically annotate a large corpus, the first large-scale Chinese dataset of 174,179 utterances (573 hours) with word-level alignment and paralingustic cues. (3) We finetune zero-shot TTS models on both human- and auto-labeled data to enable explicit control over paralinguistic vocalizations, allowing context-aware insertion at arbitrary token positions for human-like speech synthesis. By unifying the recognition and generation of paralinguistic vocalizations, NVSpeech offers the first open, large-scale, word-level annotated pipeline for expressive speech modeling in Mandarin, integrating recognition and synthesis in a scalable and controllable manner. Dataset and audio demos are available at https://nvspeech170k.github.io/.
PDF02August 13, 2025