DM-Codec: Distillazione di Rappresentazioni Multimodali per la Tokenizzazione del Parlato
DM-Codec: Distilling Multimodal Representations for Speech Tokenization
October 19, 2024
Autori: Md Mubtasim Ahasan, Md Fahim, Tasnim Mohiuddin, A K M Mahbubur Rahman, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Md Mofijul Islam, Amin Ahsan Ali
cs.AI
Abstract
I recenti progressi nei modelli di linguaggio parlato hanno portato a significativi miglioramenti nella tokenizzazione e sintesi del linguaggio parlato. Tuttavia, mappare efficacemente gli attributi complessi e multidimensionali del linguaggio parlato in token discreti rimane una sfida. Questo processo richiede informazioni acustiche, semantiche e contestuali per rappresentazioni precise del linguaggio parlato. Le rappresentazioni del linguaggio parlato esistenti generalmente si dividono in due categorie: token acustici da codec audio e token semantici da modelli di apprendimento auto-supervisionato del linguaggio parlato. Anche se sforzi recenti hanno unificato token acustici e semantici per migliorare le prestazioni, trascurano il ruolo cruciale della rappresentazione contestuale nella modellazione completa del linguaggio parlato. Le nostre indagini empiriche rivelano che l'assenza di rappresentazioni contestuali comporta un aumento del tasso di errore delle parole (WER) e del tasso di informazioni perse delle parole (WIL) nelle trascrizioni del linguaggio parlato. Per affrontare queste limitazioni, proponiamo due nuovi approcci di distillazione: (1) un metodo di distillazione guidato da un modello linguistico (LM) che incorpora informazioni contestuali, e (2) una tecnica di distillazione guidata da LM combinato e modello di linguaggio parlato auto-supervisionato (SM) che distilla efficacemente rappresentazioni multimodali (acustiche, semantiche e contestuali) in un tokenizzatore completo del linguaggio parlato, denominato DM-Codec. L'architettura DM-Codec adotta un framework di codificatore-decodificatore snello con un Quantizzatore Vettoriale Residuo (RVQ) e incorpora LM e SM durante il processo di addestramento. Gli esperimenti mostrano che DM-Codec supera significativamente i modelli di tokenizzazione del linguaggio parlato all'avanguardia, riducendo il WER fino al 13,46%, il WIL del 9,82%, migliorando la qualità del linguaggio parlato del 5,84% e l'intelligibilità del 1,85% sul dataset di benchmark LibriSpeech. Il codice, i campioni e i checkpoint del modello sono disponibili su https://github.com/mubtasimahasan/DM-Codec.
English
Recent advancements in speech-language models have yielded significant
improvements in speech tokenization and synthesis. However, effectively mapping
the complex, multidimensional attributes of speech into discrete tokens remains
challenging. This process demands acoustic, semantic, and contextual
information for precise speech representations. Existing speech representations
generally fall into two categories: acoustic tokens from audio codecs and
semantic tokens from speech self-supervised learning models. Although recent
efforts have unified acoustic and semantic tokens for improved performance,
they overlook the crucial role of contextual representation in comprehensive
speech modeling. Our empirical investigations reveal that the absence of
contextual representations results in elevated Word Error Rate (WER) and Word
Information Lost (WIL) scores in speech transcriptions. To address these
limitations, we propose two novel distillation approaches: (1) a language model
(LM)-guided distillation method that incorporates contextual information, and
(2) a combined LM and self-supervised speech model (SM)-guided distillation
technique that effectively distills multimodal representations (acoustic,
semantic, and contextual) into a comprehensive speech tokenizer, termed
DM-Codec. The DM-Codec architecture adopts a streamlined encoder-decoder
framework with a Residual Vector Quantizer (RVQ) and incorporates the LM and SM
during the training process. Experiments show DM-Codec significantly
outperforms state-of-the-art speech tokenization models, reducing WER by up to
13.46%, WIL by 9.82%, and improving speech quality by 5.84% and intelligibility
by 1.85% on the LibriSpeech benchmark dataset. The code, samples, and model
checkpoints are available at https://github.com/mubtasimahasan/DM-Codec.Summary
AI-Generated Summary