MoME: Mengsel van Matryoshka Experts voor Audio-Visuele Spraakherkenning
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
October 5, 2025
Auteurs: Umberto Cappellazzo, Minsu Kim, Pingchuan Ma, Honglie Chen, Xubo Liu, Stavros Petridis, Maja Pantic
cs.AI
Samenvatting
Grote taalmodelen (LLM's) hebben recentelijk een sterk potentieel getoond in audiovisuele spraakherkenning (AVSR), maar hun hoge rekenkundige eisen en gevoeligheid voor tokengranulariteit beperken hun praktische toepasbaarheid in omgevingen met beperkte middelen. Tokencompressiemethoden kunnen de inferentiekosten verlagen, maar ze vereisen het vooraf vaststellen van een compressiesnelheid en produceren een enkele vaste-lengte-uitvoer, wat geen flexibiliteit biedt om informatie dichtheid en efficiëntie tijdens inferentie in balans te brengen. Matryoshka-representatie leren (MRL) lost dit op door een enkel model in staat te stellen te werken over meerdere tokengranulariteiten, waardoor compressiesnelheden dynamisch kunnen worden aangepast. Huidige MRL-gebaseerde methoden behandelen echter elke schaal onafhankelijk tijdens de training, wat de kruisschaalgeneralizatie, robuustheid bij hoge compressie en interpreteerbaarheid beperkt. Om deze beperkingen te overwinnen, stellen we MoME (Mixture of Matryoshka Experts) voor, een nieuw raamwerk dat sparse Mixture-of-Experts (MoE) integreert in MRL-gebaseerde LLM's voor AVSR. MoME versterkt een bevroren LLM met top-k gerouteerde en gedeelde experts, waardoor dynamische capaciteitstoewijzing over schalen en modaliteiten mogelijk wordt. Een gedeelde router bevordert consistente expertactivatie over granulariteiten, waardoor gecomprimeerde sequenties kunnen profiteren van representaties die zijn geleerd bij lagere compressie. Experimenten op LRS2 en LRS3 tonen aan dat MoME state-of-the-art prestaties bereikt over AVSR, ASR en VSR taken, terwijl het aanzienlijk minder parameters vereist en robuustheid onder ruis behoudt. MoME verenigt de aanpasbaarheid van MRL met de efficiëntie van MoE, en biedt een schaalbare en interpreteerbare oplossing voor resourcebewuste spraakherkenning.
English
Large language models (LLMs) have recently shown strong potential in
audio-visual speech recognition (AVSR), but their high computational demands
and sensitivity to token granularity limit their practicality in
resource-constrained settings. Token compression methods can reduce inference
cost, but they require fixing a compression rate in advance and produce a
single fixed-length output, offering no flexibility to balance information
density and efficiency at inference time. Matryoshka representation learning
(MRL) addresses this by enabling a single model to operate across multiple
token granularities, allowing compression rates to be adjusted dynamically.
However, current MRL-based methods treat each scale independently during
training, limiting cross-scale generalization, robustness at high compression,
and interpretability. To overcome these limitations, we propose MoME (Mixture
of Matryoshka Experts), a novel framework that integrates sparse
Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen
LLM with top-k routed and shared experts, allowing dynamic capacity allocation
across scales and modalities. A shared router promotes consistent expert
activation across granularities, enabling compressed sequences to benefit from
representations learned at lower compression. Experiments on LRS2 and LRS3
demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR,
and VSR tasks, while requiring significantly fewer parameters and maintaining
robustness under noise. MoME unifies the adaptability of MRL with the
efficiency of MoE, offering a scalable and interpretable solution for
resource-aware speech recognition.