DM-Codec: Destilação de Representações Multimodais para Tokenização de Fala
DM-Codec: Distilling Multimodal Representations for Speech Tokenization
October 19, 2024
Autores: Md Mubtasim Ahasan, Md Fahim, Tasnim Mohiuddin, A K M Mahbubur Rahman, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Md Mofijul Islam, Amin Ahsan Ali
cs.AI
Resumo
Os avanços recentes em modelos de linguagem de fala resultaram em melhorias significativas na tokenização e síntese de fala. No entanto, mapear efetivamente os atributos complexos e multidimensionais da fala em tokens discretos continua sendo um desafio. Esse processo requer informações acústicas, semânticas e contextuais para representações precisas da fala. As representações de fala existentes geralmente se enquadram em duas categorias: tokens acústicos de codecs de áudio e tokens semânticos de modelos de aprendizado auto-supervisionado de fala. Embora esforços recentes tenham unificado tokens acústicos e semânticos para melhorar o desempenho, eles negligenciam o papel crucial da representação contextual na modelagem abrangente da fala. Nossas investigações empíricas revelam que a ausência de representações contextuais resulta em taxas elevadas de Erro de Palavra (WER) e Perda de Informação de Palavra (WIL) em transcrições de fala. Para lidar com essas limitações, propomos duas abordagens de destilação inovadoras: (1) um método de destilação guiado por modelo de linguagem (LM) que incorpora informações contextuais, e (2) uma técnica de destilação guiada por LM combinado e modelo de fala auto-supervisionado (SM) que destila efetivamente representações multimodais (acústicas, semânticas e contextuais) em um tokenizador de fala abrangente, denominado DM-Codec. A arquitetura DM-Codec adota um framework codificador-decodificador simplificado com um Quantizador Vetorial Residual (RVQ) e incorpora o LM e SM durante o processo de treinamento. Experimentos mostram que o DM-Codec supera significativamente os modelos de tokenização de fala de ponta, reduzindo o WER em até 13,46%, o WIL em 9,82%, e melhorando a qualidade da fala em 5,84% e a inteligibilidade em 1,85% no conjunto de dados de referência LibriSpeech. O código, amostras e checkpoints do modelo estão disponíveis em https://github.com/mubtasimahasan/DM-Codec.
English
Recent advancements in speech-language models have yielded significant
improvements in speech tokenization and synthesis. However, effectively mapping
the complex, multidimensional attributes of speech into discrete tokens remains
challenging. This process demands acoustic, semantic, and contextual
information for precise speech representations. Existing speech representations
generally fall into two categories: acoustic tokens from audio codecs and
semantic tokens from speech self-supervised learning models. Although recent
efforts have unified acoustic and semantic tokens for improved performance,
they overlook the crucial role of contextual representation in comprehensive
speech modeling. Our empirical investigations reveal that the absence of
contextual representations results in elevated Word Error Rate (WER) and Word
Information Lost (WIL) scores in speech transcriptions. To address these
limitations, we propose two novel distillation approaches: (1) a language model
(LM)-guided distillation method that incorporates contextual information, and
(2) a combined LM and self-supervised speech model (SM)-guided distillation
technique that effectively distills multimodal representations (acoustic,
semantic, and contextual) into a comprehensive speech tokenizer, termed
DM-Codec. The DM-Codec architecture adopts a streamlined encoder-decoder
framework with a Residual Vector Quantizer (RVQ) and incorporates the LM and SM
during the training process. Experiments show DM-Codec significantly
outperforms state-of-the-art speech tokenization models, reducing WER by up to
13.46%, WIL by 9.82%, and improving speech quality by 5.84% and intelligibility
by 1.85% on the LibriSpeech benchmark dataset. The code, samples, and model
checkpoints are available at https://github.com/mubtasimahasan/DM-Codec.Summary
AI-Generated Summary