ChatPaper.aiChatPaper

DM-Codec: Извлечение мультимодальных представлений для токенизации речи

DM-Codec: Distilling Multimodal Representations for Speech Tokenization

October 19, 2024
Авторы: Md Mubtasim Ahasan, Md Fahim, Tasnim Mohiuddin, A K M Mahbubur Rahman, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Md Mofijul Islam, Amin Ahsan Ali
cs.AI

Аннотация

Недавние достижения в области речевых моделей привели к значительным улучшениям в токенизации и синтезе речи. Однако эффективное отображение сложных, многомерных атрибутов речи в дискретные токены остается сложной задачей. Этот процесс требует акустической, семантической и контекстуальной информации для точного представления речи. Существующие представления речи обычно делятся на две категории: акустические токены из аудиокодеков и семантические токены из моделей обучения без учителя для речи. Хотя недавние усилия объединили акустические и семантические токены для улучшения производительности, они не учитывают важную роль контекстуального представления в комплексном моделировании речи. Наши эмпирические исследования показывают, что отсутствие контекстуальных представлений приводит к повышению уровня ошибок слов (WER) и потере информации о словах (WIL) при транскрипции речи. Для решения этих ограничений мы предлагаем два новых подхода к дистилляции: (1) метод дистилляции под руководством языковой модели (LM), который включает контекстуальную информацию, и (2) комбинированный метод дистилляции под руководством LM и модели обучения без учителя для речи (SM), который эффективно дистиллирует мультимодальные представления (акустические, семантические и контекстуальные) в комплексный токенизатор речи, названный DM-Codec. Архитектура DM-Codec использует упрощенную структуру кодировщика-декодировщика с остаточным векторным квантизатором (RVQ) и включает LM и SM в процесс обучения. Эксперименты показывают, что DM-Codec значительно превосходит существующие модели токенизации речи, снижая WER до 13,46%, WIL до 9,82%, улучшая качество речи на 5,84% и понимаемость на 1,85% на наборе данных LibriSpeech. Код, образцы и контрольные точки модели доступны по адресу https://github.com/mubtasimahasan/DM-Codec.
English
Recent advancements in speech-language models have yielded significant improvements in speech tokenization and synthesis. However, effectively mapping the complex, multidimensional attributes of speech into discrete tokens remains challenging. This process demands acoustic, semantic, and contextual information for precise speech representations. Existing speech representations generally fall into two categories: acoustic tokens from audio codecs and semantic tokens from speech self-supervised learning models. Although recent efforts have unified acoustic and semantic tokens for improved performance, they overlook the crucial role of contextual representation in comprehensive speech modeling. Our empirical investigations reveal that the absence of contextual representations results in elevated Word Error Rate (WER) and Word Information Lost (WIL) scores in speech transcriptions. To address these limitations, we propose two novel distillation approaches: (1) a language model (LM)-guided distillation method that incorporates contextual information, and (2) a combined LM and self-supervised speech model (SM)-guided distillation technique that effectively distills multimodal representations (acoustic, semantic, and contextual) into a comprehensive speech tokenizer, termed DM-Codec. The DM-Codec architecture adopts a streamlined encoder-decoder framework with a Residual Vector Quantizer (RVQ) and incorporates the LM and SM during the training process. Experiments show DM-Codec significantly outperforms state-of-the-art speech tokenization models, reducing WER by up to 13.46%, WIL by 9.82%, and improving speech quality by 5.84% and intelligibility by 1.85% on the LibriSpeech benchmark dataset. The code, samples, and model checkpoints are available at https://github.com/mubtasimahasan/DM-Codec.

Summary

AI-Generated Summary

PDF22November 16, 2024