DM-Codec: Destilando Representaciones Multimodales para la Tokenización del Habla

Resumen

Los avances recientes en modelos de lenguaje hablado han generado mejoras significativas en la tokenización y síntesis del habla. Sin embargo, mapear efectivamente los atributos complejos y multidimensionales del habla en tokens discretos sigue siendo un desafío. Este proceso requiere información acústica, semántica y contextual para representaciones precisas del habla. Las representaciones del habla existentes generalmente se dividen en dos categorías: tokens acústicos de códecs de audio y tokens semánticos de modelos de aprendizaje auto-supervisado del habla. Aunque los esfuerzos recientes han unificado tokens acústicos y semánticos para mejorar el rendimiento, pasan por alto el papel crucial de la representación contextual en la modelización completa del habla. Nuestras investigaciones empíricas revelan que la ausencia de representaciones contextuales resulta en un aumento en la tasa de error de palabras (WER) y en la pérdida de información de palabras (WIL) en las transcripciones del habla. Para abordar estas limitaciones, proponemos dos enfoques novedosos de destilación: (1) un método de destilación guiado por un modelo de lenguaje (LM) que incorpora información contextual, y (2) una técnica de destilación guiada por LM combinado y modelo auto-supervisado del habla (SM) que destila de manera efectiva representaciones multimodales (acústicas, semánticas y contextuales) en un tokenizador de habla integral, denominado DM-Codec. La arquitectura DM-Codec adopta un marco codificador-decodificador simplificado con un Cuantificador Vectorial Residual (RVQ) e incorpora el LM y el SM durante el proceso de entrenamiento. Los experimentos muestran que DM-Codec supera significativamente a los modelos de tokenización del habla de última generación, reduciendo el WER hasta un 13.46%, el WIL en un 9.82%, y mejorando la calidad del habla en un 5.84% y la inteligibilidad en un 1.85% en el conjunto de datos de referencia LibriSpeech. El código, muestras y puntos de control del modelo están disponibles en https://github.com/mubtasimahasan/DM-Codec.

English

Recent advancements in speech-language models have yielded significant improvements in speech tokenization and synthesis. However, effectively mapping the complex, multidimensional attributes of speech into discrete tokens remains challenging. This process demands acoustic, semantic, and contextual information for precise speech representations. Existing speech representations generally fall into two categories: acoustic tokens from audio codecs and semantic tokens from speech self-supervised learning models. Although recent efforts have unified acoustic and semantic tokens for improved performance, they overlook the crucial role of contextual representation in comprehensive speech modeling. Our empirical investigations reveal that the absence of contextual representations results in elevated Word Error Rate (WER) and Word Information Lost (WIL) scores in speech transcriptions. To address these limitations, we propose two novel distillation approaches: (1) a language model (LM)-guided distillation method that incorporates contextual information, and (2) a combined LM and self-supervised speech model (SM)-guided distillation technique that effectively distills multimodal representations (acoustic, semantic, and contextual) into a comprehensive speech tokenizer, termed DM-Codec. The DM-Codec architecture adopts a streamlined encoder-decoder framework with a Residual Vector Quantizer (RVQ) and incorporates the LM and SM during the training process. Experiments show DM-Codec significantly outperforms state-of-the-art speech tokenization models, reducing WER by up to 13.46%, WIL by 9.82%, and improving speech quality by 5.84% and intelligibility by 1.85% on the LibriSpeech benchmark dataset. The code, samples, and model checkpoints are available at https://github.com/mubtasimahasan/DM-Codec.

DM-Codec: Destilando Representaciones Multimodales para la Tokenización del Habla

DM-Codec: Distilling Multimodal Representations for Speech Tokenization

Resumen

Support