MoME: Смесь Матрёшечных Экспертов для Аудиовизуального Распознавания Речи
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
October 5, 2025
Авторы: Umberto Cappellazzo, Minsu Kim, Pingchuan Ma, Honglie Chen, Xubo Liu, Stavros Petridis, Maja Pantic
cs.AI
Аннотация
Крупные языковые модели (LLM) недавно продемонстрировали значительный потенциал в аудиовизуальном распознавании речи (AVSR), однако их высокая вычислительная сложность и чувствительность к гранулярности токенов ограничивают их практическое применение в условиях ограниченных ресурсов. Методы сжатия токенов могут снизить затраты на вывод, но они требуют предварительного задания степени сжатия и создают фиксированный выход фиксированной длины, не предоставляя гибкости для баланса между плотностью информации и эффективностью во время вывода. Обучение представлений по принципу матрёшки (MRL) решает эту проблему, позволяя одной модели работать на нескольких уровнях гранулярности токенов, что даёт возможность динамически регулировать степень сжатия. Однако современные методы на основе MRL рассматривают каждый масштаб независимо во время обучения, что ограничивает обобщение между масштабами, устойчивость при высоком сжатии и интерпретируемость. Чтобы преодолеть эти ограничения, мы предлагаем MoME (Mixture of Matryoshka Experts), новую структуру, которая интегрирует разреженную смесь экспертов (MoE) в LLM на основе MRL для AVSR. MoME расширяет замороженную LLM с помощью топ-k маршрутизируемых и общих экспертов, позволяя динамически распределять ёмкость между масштабами и модальностями. Общий маршрутизатор способствует согласованной активации экспертов на разных уровнях гранулярности, позволяя сжатым последовательностям использовать представления, изученные при меньшем сжатии. Эксперименты на наборах данных LRS2 и LRS3 показывают, что MoME достигает наилучших результатов в задачах AVSR, ASR и VSR, при этом требуя значительно меньше параметров и сохраняя устойчивость к шуму. MoME объединяет адаптивность MRL с эффективностью MoE, предлагая масштабируемое и интерпретируемое решение для распознавания речи с учётом ресурсов.
English
Large language models (LLMs) have recently shown strong potential in
audio-visual speech recognition (AVSR), but their high computational demands
and sensitivity to token granularity limit their practicality in
resource-constrained settings. Token compression methods can reduce inference
cost, but they require fixing a compression rate in advance and produce a
single fixed-length output, offering no flexibility to balance information
density and efficiency at inference time. Matryoshka representation learning
(MRL) addresses this by enabling a single model to operate across multiple
token granularities, allowing compression rates to be adjusted dynamically.
However, current MRL-based methods treat each scale independently during
training, limiting cross-scale generalization, robustness at high compression,
and interpretability. To overcome these limitations, we propose MoME (Mixture
of Matryoshka Experts), a novel framework that integrates sparse
Mixture-of-Experts (MoE) into MRL-based LLMs for AVSR. MoME augments a frozen
LLM with top-k routed and shared experts, allowing dynamic capacity allocation
across scales and modalities. A shared router promotes consistent expert
activation across granularities, enabling compressed sequences to benefit from
representations learned at lower compression. Experiments on LRS2 and LRS3
demonstrate that MoME achieves state-of-the-art performance across AVSR, ASR,
and VSR tasks, while requiring significantly fewer parameters and maintaining
robustness under noise. MoME unifies the adaptability of MRL with the
efficiency of MoE, offering a scalable and interpretable solution for
resource-aware speech recognition.