MoME: Mengsel van Matryoshka Experts voor Audio-Visuele Spraakherkenning

Samenvatting

Grote taalmodelen (LLM's) hebben recentelijk een sterk potentieel getoond in audiovisuele spraakherkenning (AVSR), maar hun hoge rekenkundige eisen en gevoeligheid voor tokengranulariteit beperken hun praktische toepasbaarheid in omgevingen met beperkte middelen. Tokencompressiemethoden kunnen de inferentiekosten verlagen, maar ze vereisen het vooraf vaststellen van een compressiesnelheid en produceren een enkele vaste-lengte-uitvoer, wat geen flexibiliteit biedt om informatie dichtheid en efficiëntie tijdens inferentie in balans te brengen. Matryoshka-representatie leren (MRL) lost dit op door een enkel model in staat te stellen te werken over meerdere tokengranulariteiten, waardoor compressiesnelheden dynamisch kunnen worden aangepast. Huidige MRL-gebaseerde methoden behandelen echter elke schaal onafhankelijk tijdens de training, wat de kruisschaalgeneralizatie, robuustheid bij hoge compressie en interpreteerbaarheid beperkt. Om deze beperkingen te overwinnen, stellen we MoME (Mixture of Matryoshka Experts) voor, een nieuw raamwerk dat sparse Mixture-of-Experts (MoE) integreert in MRL-gebaseerde LLM's voor AVSR. MoME versterkt een bevroren LLM met top-k gerouteerde en gedeelde experts, waardoor dynamische capaciteitstoewijzing over schalen en modaliteiten mogelijk wordt. Een gedeelde router bevordert consistente expertactivatie over granulariteiten, waardoor gecomprimeerde sequenties kunnen profiteren van representaties die zijn geleerd bij lagere compressie. Experimenten op LRS2 en LRS3 tonen aan dat MoME state-of-the-art prestaties bereikt over AVSR, ASR en VSR taken, terwijl het aanzienlijk minder parameters vereist en robuustheid onder ruis behoudt. MoME verenigt de aanpasbaarheid van MRL met de efficiëntie van MoE, en biedt een schaalbare en interpreteerbare oplossing voor resourcebewuste spraakherkenning.

English

Large language models (LLMs) have recently shown strong potential in audio-visual speech recognition (AVSR), but their high computational demands and sensitivity to token granularity limit their practicality in resource-constrained settings. Token compression methods can reduce inference cost, but they require fixing a compression rate in advance and produce a single fixed-length output, offering no flexibility to balance information density and efficiency at inference time. Matryoshka representation learning (MRL) addresses this by enabling a single model to operate across multiple token granularities, allowing compression rates to be adjusted dynamically. However, current MRL-based methods treat each scale independently during training, limiting cross-scale generalization, robustness at high compression, and interpretability. To overcome these limitations, we propose MoME (Mixture of Matryoshka Experts), a novel framework that integrates sparse Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen LLM with top-k routed and shared experts, allowing dynamic capacity allocation across scales and modalities. A shared router promotes consistent expert activation across granularities, enabling compressed sequences to benefit from representations learned at lower compression. Experiments on LRS2 and LRS3 demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR, and VSR tasks, while requiring significantly fewer parameters and maintaining robustness under noise. MoME unifies the adaptability of MRL with the efficiency of MoE, offering a scalable and interpretable solution for resource-aware speech recognition.

MoME: Mengsel van Matryoshka Experts voor Audio-Visuele Spraakherkenning

MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

Samenvatting

Support