MoME: Mischung von Matrjoschka-Experten für audiovisuelle Spracherkennung

papers.abstract

Große Sprachmodelle (LLMs) haben kürzlich ein starkes Potenzial in der audiovisuellen Spracherkennung (AVSR) gezeigt, doch ihr hoher Rechenbedarf und ihre Empfindlichkeit gegenüber der Token-Granularität schränken ihre Praktikabilität in ressourcenbeschränkten Umgebungen ein. Token-Kompressionsmethoden können die Inferenzkosten reduzieren, erfordern jedoch die vorherige Festlegung einer Kompressionsrate und erzeugen eine einzige feste Ausgabelänge, was keine Flexibilität bietet, um Informationsdichte und Effizienz während der Inferenz auszubalancieren. Matryoshka-Repräsentationslernen (MRL) adressiert dies, indem es einem einzelnen Modell ermöglicht, über mehrere Token-Granularitäten hinweg zu operieren, wodurch Kompressionsraten dynamisch angepasst werden können. Allerdings behandeln aktuelle MRL-basierte Methoden jede Skala während des Trainings unabhängig, was die generalisierungsfähige Robustheit bei hoher Kompression und die Interpretierbarkeit einschränkt. Um diese Grenzen zu überwinden, schlagen wir MoME (Mixture of Matryoshka Experts) vor, ein neuartiges Framework, das spärliche Mixture-of-Experts (MoE) in MRL-basierte LLMs für AVSR integriert. MoME erweitert ein eingefrorenes LLM mit top-k gerouteten und gemeinsamen Experten, wodurch eine dynamische Kapazitätszuweisung über Skalen und Modalitäten hinweg ermöglicht wird. Ein gemeinsamer Router fördert eine konsistente Expertenaktivierung über Granularitäten hinweg, wodurch komprimierte Sequenzen von Repräsentationen profitieren können, die bei niedrigerer Kompression gelernt wurden. Experimente auf LRS2 und LRS3 zeigen, dass MoME state-of-the-art Leistung über AVSR-, ASR- und VSR-Aufgaben hinweg erreicht, während es signifikant weniger Parameter benötigt und Robustheit unter Rauschen beibehält. MoME vereint die Anpassungsfähigkeit von MRL mit der Effizienz von MoE und bietet eine skalierbare und interpretierbare Lösung für ressourcenbewusste Spracherkennung.

English

Large language models (LLMs) have recently shown strong potential in audio-visual speech recognition (AVSR), but their high computational demands and sensitivity to token granularity limit their practicality in resource-constrained settings. Token compression methods can reduce inference cost, but they require fixing a compression rate in advance and produce a single fixed-length output, offering no flexibility to balance information density and efficiency at inference time. Matryoshka representation learning (MRL) addresses this by enabling a single model to operate across multiple token granularities, allowing compression rates to be adjusted dynamically. However, current MRL-based methods treat each scale independently during training, limiting cross-scale generalization, robustness at high compression, and interpretability. To overcome these limitations, we propose MoME (Mixture of Matryoshka Experts), a novel framework that integrates sparse Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen LLM with top-k routed and shared experts, allowing dynamic capacity allocation across scales and modalities. A shared router promotes consistent expert activation across granularities, enabling compressed sequences to benefit from representations learned at lower compression. Experiments on LRS2 and LRS3 demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR, and VSR tasks, while requiring significantly fewer parameters and maintaining robustness under noise. MoME unifies the adaptability of MRL with the efficiency of MoE, offering a scalable and interpretable solution for resource-aware speech recognition.

MoME: Mischung von Matrjoschka-Experten für audiovisuelle Spracherkennung

MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

papers.abstract

Support