DM-Codec: Извлечение мультимодальных представлений для токенизации речи
DM-Codec: Distilling Multimodal Representations for Speech Tokenization
October 19, 2024
Авторы: Md Mubtasim Ahasan, Md Fahim, Tasnim Mohiuddin, A K M Mahbubur Rahman, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Md Mofijul Islam, Amin Ahsan Ali
cs.AI
Аннотация
Недавние достижения в области речевых моделей привели к значительным улучшениям в токенизации и синтезе речи. Однако эффективное отображение сложных, многомерных атрибутов речи в дискретные токены остается сложной задачей. Этот процесс требует акустической, семантической и контекстуальной информации для точного представления речи. Существующие представления речи обычно делятся на две категории: акустические токены из аудиокодеков и семантические токены из моделей обучения без учителя для речи. Хотя недавние усилия объединили акустические и семантические токены для улучшения производительности, они не учитывают важную роль контекстуального представления в комплексном моделировании речи. Наши эмпирические исследования показывают, что отсутствие контекстуальных представлений приводит к повышению уровня ошибок слов (WER) и потере информации о словах (WIL) при транскрипции речи. Для решения этих ограничений мы предлагаем два новых подхода к дистилляции: (1) метод дистилляции под руководством языковой модели (LM), который включает контекстуальную информацию, и (2) комбинированный метод дистилляции под руководством LM и модели обучения без учителя для речи (SM), который эффективно дистиллирует мультимодальные представления (акустические, семантические и контекстуальные) в комплексный токенизатор речи, названный DM-Codec. Архитектура DM-Codec использует упрощенную структуру кодировщика-декодировщика с остаточным векторным квантизатором (RVQ) и включает LM и SM в процесс обучения. Эксперименты показывают, что DM-Codec значительно превосходит существующие модели токенизации речи, снижая WER до 13,46%, WIL до 9,82%, улучшая качество речи на 5,84% и понимаемость на 1,85% на наборе данных LibriSpeech. Код, образцы и контрольные точки модели доступны по адресу https://github.com/mubtasimahasan/DM-Codec.
English
Recent advancements in speech-language models have yielded significant
improvements in speech tokenization and synthesis. However, effectively mapping
the complex, multidimensional attributes of speech into discrete tokens remains
challenging. This process demands acoustic, semantic, and contextual
information for precise speech representations. Existing speech representations
generally fall into two categories: acoustic tokens from audio codecs and
semantic tokens from speech self-supervised learning models. Although recent
efforts have unified acoustic and semantic tokens for improved performance,
they overlook the crucial role of contextual representation in comprehensive
speech modeling. Our empirical investigations reveal that the absence of
contextual representations results in elevated Word Error Rate (WER) and Word
Information Lost (WIL) scores in speech transcriptions. To address these
limitations, we propose two novel distillation approaches: (1) a language model
(LM)-guided distillation method that incorporates contextual information, and
(2) a combined LM and self-supervised speech model (SM)-guided distillation
technique that effectively distills multimodal representations (acoustic,
semantic, and contextual) into a comprehensive speech tokenizer, termed
DM-Codec. The DM-Codec architecture adopts a streamlined encoder-decoder
framework with a Residual Vector Quantizer (RVQ) and incorporates the LM and SM
during the training process. Experiments show DM-Codec significantly
outperforms state-of-the-art speech tokenization models, reducing WER by up to
13.46%, WIL by 9.82%, and improving speech quality by 5.84% and intelligibility
by 1.85% on the LibriSpeech benchmark dataset. The code, samples, and model
checkpoints are available at https://github.com/mubtasimahasan/DM-Codec.Summary
AI-Generated Summary