MoME : Mélange d'Experts Matriochka pour la Reconnaissance Audio-Visuelle de la Parole

papers.abstract

Les grands modèles de langage (LLMs) ont récemment démontré un fort potentiel dans la reconnaissance audio-visuelle de la parole (AVSR), mais leurs exigences computationnelles élevées et leur sensibilité à la granularité des tokens limitent leur praticabilité dans des environnements à ressources contraintes. Les méthodes de compression de tokens peuvent réduire les coûts d'inférence, mais elles nécessitent de fixer un taux de compression à l'avance et produisent une sortie de longueur fixe, offrant peu de flexibilité pour équilibrer la densité d'information et l'efficacité au moment de l'inférence. L'apprentissage de représentations Matryoshka (MRL) aborde ce problème en permettant à un seul modèle de fonctionner à plusieurs granularités de tokens, autorisant ainsi l'ajustement dynamique des taux de compression. Cependant, les méthodes actuelles basées sur MRL traitent chaque échelle de manière indépendante pendant l'entraînement, limitant la généralisation inter-échelles, la robustesse à haute compression et l'interprétabilité. Pour surmonter ces limitations, nous proposons MoME (Mixture of Matryoshka Experts), un cadre novateur qui intègre un mélange épars d'experts (MoE) dans les LLMs basés sur MRL pour l'AVSR. MoME enrichit un LLM figé avec des experts routés et partagés top-k, permettant une allocation dynamique de la capacité à travers les échelles et les modalités. Un routeur partagé favorise une activation cohérente des experts à travers les granularités, permettant aux séquences compressées de bénéficier des représentations apprises à des compressions plus faibles. Les expériences sur LRS2 et LRS3 démontrent que MoME atteint des performances de pointe dans les tâches d'AVSR, ASR et VSR, tout en nécessitant significativement moins de paramètres et en maintenant une robustesse face au bruit. MoME unifie l'adaptabilité du MRL avec l'efficacité du MoE, offrant une solution scalable et interprétable pour la reconnaissance de la parole adaptée aux ressources.

English

Large language models (LLMs) have recently shown strong potential in audio-visual speech recognition (AVSR), but their high computational demands and sensitivity to token granularity limit their practicality in resource-constrained settings. Token compression methods can reduce inference cost, but they require fixing a compression rate in advance and produce a single fixed-length output, offering no flexibility to balance information density and efficiency at inference time. Matryoshka representation learning (MRL) addresses this by enabling a single model to operate across multiple token granularities, allowing compression rates to be adjusted dynamically. However, current MRL-based methods treat each scale independently during training, limiting cross-scale generalization, robustness at high compression, and interpretability. To overcome these limitations, we propose MoME (Mixture of Matryoshka Experts), a novel framework that integrates sparse Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen LLM with top-k routed and shared experts, allowing dynamic capacity allocation across scales and modalities. A shared router promotes consistent expert activation across granularities, enabling compressed sequences to benefit from representations learned at lower compression. Experiments on LRS2 and LRS3 demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR, and VSR tasks, while requiring significantly fewer parameters and maintaining robustness under noise. MoME unifies the adaptability of MRL with the efficiency of MoE, offering a scalable and interpretable solution for resource-aware speech recognition.

MoME : Mélange d'Experts Matriochka pour la Reconnaissance Audio-Visuelle de la Parole

MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

papers.abstract

Support