MoME: Mistura de Especialistas Matryoshka para Reconhecimento de Fala Áudio-Visual

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado recentemente um forte potencial no reconhecimento de fala audiovisual (AVSR), mas suas altas demandas computacionais e sensibilidade à granularidade dos tokens limitam sua praticidade em ambientes com recursos restritos. Métodos de compressão de tokens podem reduzir o custo de inferência, mas exigem a definição prévia de uma taxa de compressão e produzem uma saída de comprimento fixo, oferecendo pouca flexibilidade para equilibrar densidade de informação e eficiência durante a inferência. O aprendizado de representação Matryoshka (MRL) aborda isso ao permitir que um único modelo opere em múltiplas granularidades de tokens, possibilitando que as taxas de compressão sejam ajustadas dinamicamente. No entanto, os métodos atuais baseados em MRL tratam cada escala de forma independente durante o treinamento, limitando a generalização entre escalas, a robustez em altas compressões e a interpretabilidade. Para superar essas limitações, propomos o MoME (Mixture of Matryoshka Experts), uma nova estrutura que integra o Mixture-of-Experts (MoE) esparso em LLMs baseados em MRL para AVSR. O MoME amplia um LLM congelado com especialistas compartilhados e roteados por top-k, permitindo a alocação dinâmica de capacidade entre escalas e modalidades. Um roteador compartilhado promove a ativação consistente de especialistas entre granularidades, permitindo que sequências comprimidas se beneficiem de representações aprendidas em compressões menores. Experimentos no LRS2 e LRS3 demonstram que o MoME alcança desempenho de ponta em tarefas de AVSR, ASR e VSR, enquanto requer significativamente menos parâmetros e mantém a robustez sob ruído. O MoME unifica a adaptabilidade do MRL com a eficiência do MoE, oferecendo uma solução escalável e interpretável para o reconhecimento de fala consciente de recursos.

English

Large language models (LLMs) have recently shown strong potential in audio-visual speech recognition (AVSR), but their high computational demands and sensitivity to token granularity limit their practicality in resource-constrained settings. Token compression methods can reduce inference cost, but they require fixing a compression rate in advance and produce a single fixed-length output, offering no flexibility to balance information density and efficiency at inference time. Matryoshka representation learning (MRL) addresses this by enabling a single model to operate across multiple token granularities, allowing compression rates to be adjusted dynamically. However, current MRL-based methods treat each scale independently during training, limiting cross-scale generalization, robustness at high compression, and interpretability. To overcome these limitations, we propose MoME (Mixture of Matryoshka Experts), a novel framework that integrates sparse Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen LLM with top-k routed and shared experts, allowing dynamic capacity allocation across scales and modalities. A shared router promotes consistent expert activation across granularities, enabling compressed sequences to benefit from representations learned at lower compression. Experiments on LRS2 and LRS3 demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR, and VSR tasks, while requiring significantly fewer parameters and maintaining robustness under noise. MoME unifies the adaptability of MRL with the efficiency of MoE, offering a scalable and interpretable solution for resource-aware speech recognition.

MoME: Mistura de Especialistas Matryoshka para Reconhecimento de Fala Áudio-Visual

MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

Resumo

Support