MoME: Mistura de Especialistas Matryoshka para Reconhecimento de Fala Áudio-Visual
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
October 5, 2025
Autores: Umberto Cappellazzo, Minsu Kim, Pingchuan Ma, Honglie Chen, Xubo Liu, Stavros Petridis, Maja Pantic
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado recentemente um forte potencial no reconhecimento de fala audiovisual (AVSR), mas suas altas demandas computacionais e sensibilidade à granularidade dos tokens limitam sua praticidade em ambientes com recursos restritos. Métodos de compressão de tokens podem reduzir o custo de inferência, mas exigem a definição prévia de uma taxa de compressão e produzem uma saída de comprimento fixo, oferecendo pouca flexibilidade para equilibrar densidade de informação e eficiência durante a inferência. O aprendizado de representação Matryoshka (MRL) aborda isso ao permitir que um único modelo opere em múltiplas granularidades de tokens, possibilitando que as taxas de compressão sejam ajustadas dinamicamente. No entanto, os métodos atuais baseados em MRL tratam cada escala de forma independente durante o treinamento, limitando a generalização entre escalas, a robustez em altas compressões e a interpretabilidade. Para superar essas limitações, propomos o MoME (Mixture of Matryoshka Experts), uma nova estrutura que integra o Mixture-of-Experts (MoE) esparso em LLMs baseados em MRL para AVSR. O MoME amplia um LLM congelado com especialistas compartilhados e roteados por top-k, permitindo a alocação dinâmica de capacidade entre escalas e modalidades. Um roteador compartilhado promove a ativação consistente de especialistas entre granularidades, permitindo que sequências comprimidas se beneficiem de representações aprendidas em compressões menores. Experimentos no LRS2 e LRS3 demonstram que o MoME alcança desempenho de ponta em tarefas de AVSR, ASR e VSR, enquanto requer significativamente menos parâmetros e mantém a robustez sob ruído. O MoME unifica a adaptabilidade do MRL com a eficiência do MoE, oferecendo uma solução escalável e interpretável para o reconhecimento de fala consciente de recursos.
English
Large language models (LLMs) have recently shown strong potential in
audio-visual speech recognition (AVSR), but their high computational demands
and sensitivity to token granularity limit their practicality in
resource-constrained settings. Token compression methods can reduce inference
cost, but they require fixing a compression rate in advance and produce a
single fixed-length output, offering no flexibility to balance information
density and efficiency at inference time. Matryoshka representation learning
(MRL) addresses this by enabling a single model to operate across multiple
token granularities, allowing compression rates to be adjusted dynamically.
However, current MRL-based methods treat each scale independently during
training, limiting cross-scale generalization, robustness at high compression,
and interpretability. To overcome these limitations, we propose MoME (Mixture
of Matryoshka Experts), a novel framework that integrates sparse
Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen
LLM with top-k routed and shared experts, allowing dynamic capacity allocation
across scales and modalities. A shared router promotes consistent expert
activation across granularities, enabling compressed sequences to benefit from
representations learned at lower compression. Experiments on LRS2 and LRS3
demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR,
and VSR tasks, while requiring significantly fewer parameters and maintaining
robustness under noise. MoME unifies the adaptability of MRL with the
efficiency of MoE, offering a scalable and interpretable solution for
resource-aware speech recognition.