MoME : Mélange d'Experts Matriochka pour la Reconnaissance Audio-Visuelle de la Parole
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
October 5, 2025
papers.authors: Umberto Cappellazzo, Minsu Kim, Pingchuan Ma, Honglie Chen, Xubo Liu, Stavros Petridis, Maja Pantic
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) ont récemment démontré un fort potentiel dans la reconnaissance audio-visuelle de la parole (AVSR), mais leurs exigences computationnelles élevées et leur sensibilité à la granularité des tokens limitent leur praticabilité dans des environnements à ressources contraintes. Les méthodes de compression de tokens peuvent réduire les coûts d'inférence, mais elles nécessitent de fixer un taux de compression à l'avance et produisent une sortie de longueur fixe, offrant peu de flexibilité pour équilibrer la densité d'information et l'efficacité au moment de l'inférence. L'apprentissage de représentations Matryoshka (MRL) aborde ce problème en permettant à un seul modèle de fonctionner à plusieurs granularités de tokens, autorisant ainsi l'ajustement dynamique des taux de compression. Cependant, les méthodes actuelles basées sur MRL traitent chaque échelle de manière indépendante pendant l'entraînement, limitant la généralisation inter-échelles, la robustesse à haute compression et l'interprétabilité. Pour surmonter ces limitations, nous proposons MoME (Mixture of Matryoshka Experts), un cadre novateur qui intègre un mélange épars d'experts (MoE) dans les LLMs basés sur MRL pour l'AVSR. MoME enrichit un LLM figé avec des experts routés et partagés top-k, permettant une allocation dynamique de la capacité à travers les échelles et les modalités. Un routeur partagé favorise une activation cohérente des experts à travers les granularités, permettant aux séquences compressées de bénéficier des représentations apprises à des compressions plus faibles. Les expériences sur LRS2 et LRS3 démontrent que MoME atteint des performances de pointe dans les tâches d'AVSR, ASR et VSR, tout en nécessitant significativement moins de paramètres et en maintenant une robustesse face au bruit. MoME unifie l'adaptabilité du MRL avec l'efficacité du MoE, offrant une solution scalable et interprétable pour la reconnaissance de la parole adaptée aux ressources.
English
Large language models (LLMs) have recently shown strong potential in
audio-visual speech recognition (AVSR), but their high computational demands
and sensitivity to token granularity limit their practicality in
resource-constrained settings. Token compression methods can reduce inference
cost, but they require fixing a compression rate in advance and produce a
single fixed-length output, offering no flexibility to balance information
density and efficiency at inference time. Matryoshka representation learning
(MRL) addresses this by enabling a single model to operate across multiple
token granularities, allowing compression rates to be adjusted dynamically.
However, current MRL-based methods treat each scale independently during
training, limiting cross-scale generalization, robustness at high compression,
and interpretability. To overcome these limitations, we propose MoME (Mixture
of Matryoshka Experts), a novel framework that integrates sparse
Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen
LLM with top-k routed and shared experts, allowing dynamic capacity allocation
across scales and modalities. A shared router promotes consistent expert
activation across granularities, enabling compressed sequences to benefit from
representations learned at lower compression. Experiments on LRS2 and LRS3
demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR,
and VSR tasks, while requiring significantly fewer parameters and maintaining
robustness under noise. MoME unifies the adaptability of MRL with the
efficiency of MoE, offering a scalable and interpretable solution for
resource-aware speech recognition.