MoME: Mischung von Matrjoschka-Experten für audiovisuelle Spracherkennung
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
October 5, 2025
papers.authors: Umberto Cappellazzo, Minsu Kim, Pingchuan Ma, Honglie Chen, Xubo Liu, Stavros Petridis, Maja Pantic
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben kürzlich ein starkes Potenzial in der audiovisuellen Spracherkennung (AVSR) gezeigt, doch ihr hoher Rechenbedarf und ihre Empfindlichkeit gegenüber der Token-Granularität schränken ihre Praktikabilität in ressourcenbeschränkten Umgebungen ein. Token-Kompressionsmethoden können die Inferenzkosten reduzieren, erfordern jedoch die vorherige Festlegung einer Kompressionsrate und erzeugen eine einzige feste Ausgabelänge, was keine Flexibilität bietet, um Informationsdichte und Effizienz während der Inferenz auszubalancieren. Matryoshka-Repräsentationslernen (MRL) adressiert dies, indem es einem einzelnen Modell ermöglicht, über mehrere Token-Granularitäten hinweg zu operieren, wodurch Kompressionsraten dynamisch angepasst werden können. Allerdings behandeln aktuelle MRL-basierte Methoden jede Skala während des Trainings unabhängig, was die generalisierungsfähige Robustheit bei hoher Kompression und die Interpretierbarkeit einschränkt. Um diese Grenzen zu überwinden, schlagen wir MoME (Mixture of Matryoshka Experts) vor, ein neuartiges Framework, das spärliche Mixture-of-Experts (MoE) in MRL-basierte LLMs für AVSR integriert. MoME erweitert ein eingefrorenes LLM mit top-k gerouteten und gemeinsamen Experten, wodurch eine dynamische Kapazitätszuweisung über Skalen und Modalitäten hinweg ermöglicht wird. Ein gemeinsamer Router fördert eine konsistente Expertenaktivierung über Granularitäten hinweg, wodurch komprimierte Sequenzen von Repräsentationen profitieren können, die bei niedrigerer Kompression gelernt wurden. Experimente auf LRS2 und LRS3 zeigen, dass MoME state-of-the-art Leistung über AVSR-, ASR- und VSR-Aufgaben hinweg erreicht, während es signifikant weniger Parameter benötigt und Robustheit unter Rauschen beibehält. MoME vereint die Anpassungsfähigkeit von MRL mit der Effizienz von MoE und bietet eine skalierbare und interpretierbare Lösung für ressourcenbewusste Spracherkennung.
English
Large language models (LLMs) have recently shown strong potential in
audio-visual speech recognition (AVSR), but their high computational demands
and sensitivity to token granularity limit their practicality in
resource-constrained settings. Token compression methods can reduce inference
cost, but they require fixing a compression rate in advance and produce a
single fixed-length output, offering no flexibility to balance information
density and efficiency at inference time. Matryoshka representation learning
(MRL) addresses this by enabling a single model to operate across multiple
token granularities, allowing compression rates to be adjusted dynamically.
However, current MRL-based methods treat each scale independently during
training, limiting cross-scale generalization, robustness at high compression,
and interpretability. To overcome these limitations, we propose MoME (Mixture
of Matryoshka Experts), a novel framework that integrates sparse
Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen
LLM with top-k routed and shared experts, allowing dynamic capacity allocation
across scales and modalities. A shared router promotes consistent expert
activation across granularities, enabling compressed sequences to benefit from
representations learned at lower compression. Experiments on LRS2 and LRS3
demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR,
and VSR tasks, while requiring significantly fewer parameters and maintaining
robustness under noise. MoME unifies the adaptability of MRL with the
efficiency of MoE, offering a scalable and interpretable solution for
resource-aware speech recognition.