MoME: Mezcla de Expertos Matryoshka para el Reconocimiento de Habla Audiovisual

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente un fuerte potencial en el reconocimiento de habla audiovisual (AVSR, por sus siglas en inglés), pero sus altas demandas computacionales y su sensibilidad a la granularidad de los tokens limitan su practicidad en entornos con recursos limitados. Los métodos de compresión de tokens pueden reducir el costo de inferencia, pero requieren fijar una tasa de compresión de antemano y producen una salida de longitud fija, lo que no ofrece flexibilidad para equilibrar la densidad de información y la eficiencia durante la inferencia. El aprendizaje de representaciones Matryoshka (MRL, por sus siglas en inglés) aborda este problema al permitir que un solo modelo opere en múltiples granularidades de tokens, lo que permite ajustar dinámicamente las tasas de compresión. Sin embargo, los métodos actuales basados en MRL tratan cada escala de manera independiente durante el entrenamiento, lo que limita la generalización entre escalas, la robustez en compresiones altas y la interpretabilidad. Para superar estas limitaciones, proponemos MoME (Mezcla de Expertos Matryoshka), un marco novedoso que integra la Mezcla de Expertos (MoE, por sus siglas en inglés) dispersa en LLMs basados en MRL para AVSR. MoME aumenta un LLM congelado con expertos enrutados y compartidos de top-k, permitiendo una asignación dinámica de capacidad entre escalas y modalidades. Un enrutador compartido promueve una activación consistente de expertos a través de granularidades, permitiendo que las secuencias comprimidas se beneficien de las representaciones aprendidas en compresiones más bajas. Los experimentos en LRS2 y LRS3 demuestran que MoME logra un rendimiento de vanguardia en tareas de AVSR, ASR y VSR, mientras requiere significativamente menos parámetros y mantiene la robustez bajo ruido. MoME unifica la adaptabilidad de MRL con la eficiencia de MoE, ofreciendo una solución escalable e interpretable para el reconocimiento de habla consciente de los recursos.

English

Large language models (LLMs) have recently shown strong potential in audio-visual speech recognition (AVSR), but their high computational demands and sensitivity to token granularity limit their practicality in resource-constrained settings. Token compression methods can reduce inference cost, but they require fixing a compression rate in advance and produce a single fixed-length output, offering no flexibility to balance information density and efficiency at inference time. Matryoshka representation learning (MRL) addresses this by enabling a single model to operate across multiple token granularities, allowing compression rates to be adjusted dynamically. However, current MRL-based methods treat each scale independently during training, limiting cross-scale generalization, robustness at high compression, and interpretability. To overcome these limitations, we propose MoME (Mixture of Matryoshka Experts), a novel framework that integrates sparse Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen LLM with top-k routed and shared experts, allowing dynamic capacity allocation across scales and modalities. A shared router promotes consistent expert activation across granularities, enabling compressed sequences to benefit from representations learned at lower compression. Experiments on LRS2 and LRS3 demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR, and VSR tasks, while requiring significantly fewer parameters and maintaining robustness under noise. MoME unifies the adaptability of MRL with the efficiency of MoE, offering a scalable and interpretable solution for resource-aware speech recognition.

MoME: Mezcla de Expertos Matryoshka para el Reconocimiento de Habla Audiovisual

MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

Resumen

Support