DM-Codec: Destilando Representaciones Multimodales para la Tokenización del Habla
DM-Codec: Distilling Multimodal Representations for Speech Tokenization
October 19, 2024
Autores: Md Mubtasim Ahasan, Md Fahim, Tasnim Mohiuddin, A K M Mahbubur Rahman, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Md Mofijul Islam, Amin Ahsan Ali
cs.AI
Resumen
Los avances recientes en modelos de lenguaje hablado han generado mejoras significativas en la tokenización y síntesis del habla. Sin embargo, mapear efectivamente los atributos complejos y multidimensionales del habla en tokens discretos sigue siendo un desafío. Este proceso requiere información acústica, semántica y contextual para representaciones precisas del habla. Las representaciones del habla existentes generalmente se dividen en dos categorías: tokens acústicos de códecs de audio y tokens semánticos de modelos de aprendizaje auto-supervisado del habla. Aunque los esfuerzos recientes han unificado tokens acústicos y semánticos para mejorar el rendimiento, pasan por alto el papel crucial de la representación contextual en la modelización completa del habla. Nuestras investigaciones empíricas revelan que la ausencia de representaciones contextuales resulta en un aumento en la tasa de error de palabras (WER) y en la pérdida de información de palabras (WIL) en las transcripciones del habla. Para abordar estas limitaciones, proponemos dos enfoques novedosos de destilación: (1) un método de destilación guiado por un modelo de lenguaje (LM) que incorpora información contextual, y (2) una técnica de destilación guiada por LM combinado y modelo auto-supervisado del habla (SM) que destila de manera efectiva representaciones multimodales (acústicas, semánticas y contextuales) en un tokenizador de habla integral, denominado DM-Codec. La arquitectura DM-Codec adopta un marco codificador-decodificador simplificado con un Cuantificador Vectorial Residual (RVQ) e incorpora el LM y el SM durante el proceso de entrenamiento. Los experimentos muestran que DM-Codec supera significativamente a los modelos de tokenización del habla de última generación, reduciendo el WER hasta un 13.46%, el WIL en un 9.82%, y mejorando la calidad del habla en un 5.84% y la inteligibilidad en un 1.85% en el conjunto de datos de referencia LibriSpeech. El código, muestras y puntos de control del modelo están disponibles en https://github.com/mubtasimahasan/DM-Codec.
English
Recent advancements in speech-language models have yielded significant
improvements in speech tokenization and synthesis. However, effectively mapping
the complex, multidimensional attributes of speech into discrete tokens remains
challenging. This process demands acoustic, semantic, and contextual
information for precise speech representations. Existing speech representations
generally fall into two categories: acoustic tokens from audio codecs and
semantic tokens from speech self-supervised learning models. Although recent
efforts have unified acoustic and semantic tokens for improved performance,
they overlook the crucial role of contextual representation in comprehensive
speech modeling. Our empirical investigations reveal that the absence of
contextual representations results in elevated Word Error Rate (WER) and Word
Information Lost (WIL) scores in speech transcriptions. To address these
limitations, we propose two novel distillation approaches: (1) a language model
(LM)-guided distillation method that incorporates contextual information, and
(2) a combined LM and self-supervised speech model (SM)-guided distillation
technique that effectively distills multimodal representations (acoustic,
semantic, and contextual) into a comprehensive speech tokenizer, termed
DM-Codec. The DM-Codec architecture adopts a streamlined encoder-decoder
framework with a Residual Vector Quantizer (RVQ) and incorporates the LM and SM
during the training process. Experiments show DM-Codec significantly
outperforms state-of-the-art speech tokenization models, reducing WER by up to
13.46%, WIL by 9.82%, and improving speech quality by 5.84% and intelligibility
by 1.85% on the LibriSpeech benchmark dataset. The code, samples, and model
checkpoints are available at https://github.com/mubtasimahasan/DM-Codec.Summary
AI-Generated Summary