MoME: Miscela di Esperti Matrioska per il Riconoscimento Audio-Visivo del Parlato
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
October 5, 2025
Autori: Umberto Cappellazzo, Minsu Kim, Pingchuan Ma, Honglie Chen, Xubo Liu, Stavros Petridis, Maja Pantic
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno recentemente dimostrato un forte potenziale nel riconoscimento audio-visivo del parlato (AVSR), ma le loro elevate esigenze computazionali e la sensibilità alla granularità dei token ne limitano la praticità in contesti con risorse limitate. I metodi di compressione dei token possono ridurre i costi di inferenza, ma richiedono di fissare in anticipo un tasso di compressione e producono un output di lunghezza fissa, offrendo poca flessibilità nel bilanciare densità informativa ed efficienza durante l'inferenza. L'apprendimento delle rappresentazioni Matryoshka (MRL) affronta questo problema consentendo a un singolo modello di operare su più granularità di token, permettendo di regolare dinamicamente i tassi di compressione. Tuttavia, i metodi attuali basati su MRL trattano ogni scala in modo indipendente durante l'addestramento, limitando la generalizzazione tra scale, la robustezza ad alte compressioni e l'interpretabilità. Per superare questi limiti, proponiamo MoME (Mixture of Matryoshka Experts), un nuovo framework che integra il Mixture-of-Experts (MoE) sparso negli LLM basati su MRL per l'AVSR. MoME potenzia un LLM congelato con esperti condivisi e selezionati tramite top-k, consentendo un'allocazione dinamica della capacità tra scale e modalità. Un router condiviso promuove un'attivazione coerente degli esperti tra le granularità, permettendo alle sequenze compresse di beneficiare delle rappresentazioni apprese a compressioni inferiori. Gli esperimenti su LRS2 e LRS3 dimostrano che MoME raggiunge prestazioni all'avanguardia nei task di AVSR, ASR e VSR, richiedendo significativamente meno parametri e mantenendo la robustezza in presenza di rumore. MoME unisce l'adattabilità di MRL con l'efficienza di MoE, offrendo una soluzione scalabile e interpretabile per il riconoscimento del parlato consapevole delle risorse.
English
Large language models (LLMs) have recently shown strong potential in
audio-visual speech recognition (AVSR), but their high computational demands
and sensitivity to token granularity limit their practicality in
resource-constrained settings. Token compression methods can reduce inference
cost, but they require fixing a compression rate in advance and produce a
single fixed-length output, offering no flexibility to balance information
density and efficiency at inference time. Matryoshka representation learning
(MRL) addresses this by enabling a single model to operate across multiple
token granularities, allowing compression rates to be adjusted dynamically.
However, current MRL-based methods treat each scale independently during
training, limiting cross-scale generalization, robustness at high compression,
and interpretability. To overcome these limitations, we propose MoME (Mixture
of Matryoshka Experts), a novel framework that integrates sparse
Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen
LLM with top-k routed and shared experts, allowing dynamic capacity allocation
across scales and modalities. A shared router promotes consistent expert
activation across granularities, enabling compressed sequences to benefit from
representations learned at lower compression. Experiments on LRS2 and LRS3
demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR,
and VSR tasks, while requiring significantly fewer parameters and maintaining
robustness under noise. MoME unifies the adaptability of MRL with the
efficiency of MoE, offering a scalable and interpretable solution for
resource-aware speech recognition.