MoME: Mezcla de Expertos Matryoshka para el Reconocimiento de Habla Audiovisual
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
October 5, 2025
Autores: Umberto Cappellazzo, Minsu Kim, Pingchuan Ma, Honglie Chen, Xubo Liu, Stavros Petridis, Maja Pantic
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente un fuerte potencial en el reconocimiento de habla audiovisual (AVSR, por sus siglas en inglés), pero sus altas demandas computacionales y su sensibilidad a la granularidad de los tokens limitan su practicidad en entornos con recursos limitados. Los métodos de compresión de tokens pueden reducir el costo de inferencia, pero requieren fijar una tasa de compresión de antemano y producen una salida de longitud fija, lo que no ofrece flexibilidad para equilibrar la densidad de información y la eficiencia durante la inferencia. El aprendizaje de representaciones Matryoshka (MRL, por sus siglas en inglés) aborda este problema al permitir que un solo modelo opere en múltiples granularidades de tokens, lo que permite ajustar dinámicamente las tasas de compresión. Sin embargo, los métodos actuales basados en MRL tratan cada escala de manera independiente durante el entrenamiento, lo que limita la generalización entre escalas, la robustez en compresiones altas y la interpretabilidad. Para superar estas limitaciones, proponemos MoME (Mezcla de Expertos Matryoshka), un marco novedoso que integra la Mezcla de Expertos (MoE, por sus siglas en inglés) dispersa en LLMs basados en MRL para AVSR. MoME aumenta un LLM congelado con expertos enrutados y compartidos de top-k, permitiendo una asignación dinámica de capacidad entre escalas y modalidades. Un enrutador compartido promueve una activación consistente de expertos a través de granularidades, permitiendo que las secuencias comprimidas se beneficien de las representaciones aprendidas en compresiones más bajas. Los experimentos en LRS2 y LRS3 demuestran que MoME logra un rendimiento de vanguardia en tareas de AVSR, ASR y VSR, mientras requiere significativamente menos parámetros y mantiene la robustez bajo ruido. MoME unifica la adaptabilidad de MRL con la eficiencia de MoE, ofreciendo una solución escalable e interpretable para el reconocimiento de habla consciente de los recursos.
English
Large language models (LLMs) have recently shown strong potential in
audio-visual speech recognition (AVSR), but their high computational demands
and sensitivity to token granularity limit their practicality in
resource-constrained settings. Token compression methods can reduce inference
cost, but they require fixing a compression rate in advance and produce a
single fixed-length output, offering no flexibility to balance information
density and efficiency at inference time. Matryoshka representation learning
(MRL) addresses this by enabling a single model to operate across multiple
token granularities, allowing compression rates to be adjusted dynamically.
However, current MRL-based methods treat each scale independently during
training, limiting cross-scale generalization, robustness at high compression,
and interpretability. To overcome these limitations, we propose MoME (Mixture
of Matryoshka Experts), a novel framework that integrates sparse
Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen
LLM with top-k routed and shared experts, allowing dynamic capacity allocation
across scales and modalities. A shared router promotes consistent expert
activation across granularities, enabling compressed sequences to benefit from
representations learned at lower compression. Experiments on LRS2 and LRS3
demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR,
and VSR tasks, while requiring significantly fewer parameters and maintaining
robustness under noise. MoME unifies the adaptability of MRL with the
efficiency of MoE, offering a scalable and interpretable solution for
resource-aware speech recognition.