MoME: Miscela di Esperti Matrioska per il Riconoscimento Audio-Visivo del Parlato

Abstract

I grandi modelli linguistici (LLM) hanno recentemente dimostrato un forte potenziale nel riconoscimento audio-visivo del parlato (AVSR), ma le loro elevate esigenze computazionali e la sensibilità alla granularità dei token ne limitano la praticità in contesti con risorse limitate. I metodi di compressione dei token possono ridurre i costi di inferenza, ma richiedono di fissare in anticipo un tasso di compressione e producono un output di lunghezza fissa, offrendo poca flessibilità nel bilanciare densità informativa ed efficienza durante l'inferenza. L'apprendimento delle rappresentazioni Matryoshka (MRL) affronta questo problema consentendo a un singolo modello di operare su più granularità di token, permettendo di regolare dinamicamente i tassi di compressione. Tuttavia, i metodi attuali basati su MRL trattano ogni scala in modo indipendente durante l'addestramento, limitando la generalizzazione tra scale, la robustezza ad alte compressioni e l'interpretabilità. Per superare questi limiti, proponiamo MoME (Mixture of Matryoshka Experts), un nuovo framework che integra il Mixture-of-Experts (MoE) sparso negli LLM basati su MRL per l'AVSR. MoME potenzia un LLM congelato con esperti condivisi e selezionati tramite top-k, consentendo un'allocazione dinamica della capacità tra scale e modalità. Un router condiviso promuove un'attivazione coerente degli esperti tra le granularità, permettendo alle sequenze compresse di beneficiare delle rappresentazioni apprese a compressioni inferiori. Gli esperimenti su LRS2 e LRS3 dimostrano che MoME raggiunge prestazioni all'avanguardia nei task di AVSR, ASR e VSR, richiedendo significativamente meno parametri e mantenendo la robustezza in presenza di rumore. MoME unisce l'adattabilità di MRL con l'efficienza di MoE, offrendo una soluzione scalabile e interpretabile per il riconoscimento del parlato consapevole delle risorse.

English

Large language models (LLMs) have recently shown strong potential in audio-visual speech recognition (AVSR), but their high computational demands and sensitivity to token granularity limit their practicality in resource-constrained settings. Token compression methods can reduce inference cost, but they require fixing a compression rate in advance and produce a single fixed-length output, offering no flexibility to balance information density and efficiency at inference time. Matryoshka representation learning (MRL) addresses this by enabling a single model to operate across multiple token granularities, allowing compression rates to be adjusted dynamically. However, current MRL-based methods treat each scale independently during training, limiting cross-scale generalization, robustness at high compression, and interpretability. To overcome these limitations, we propose MoME (Mixture of Matryoshka Experts), a novel framework that integrates sparse Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen LLM with top-k routed and shared experts, allowing dynamic capacity allocation across scales and modalities. A shared router promotes consistent expert activation across granularities, enabling compressed sequences to benefit from representations learned at lower compression. Experiments on LRS2 and LRS3 demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR, and VSR tasks, while requiring significantly fewer parameters and maintaining robustness under noise. MoME unifies the adaptability of MRL with the efficiency of MoE, offering a scalable and interpretable solution for resource-aware speech recognition.

MoME: Miscela di Esperti Matrioska per il Riconoscimento Audio-Visivo del Parlato

MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

Abstract

Support