Escalonamento e Aprimoramento de AVSR Baseado em LLM: Uma Abordagem de Mistura Esparsa de Projetores
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
May 20, 2025
Autores: Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti
cs.AI
Resumo
O Reconhecimento de Fala Áudio-Visual (AVSR) aumenta a robustez em ambientes ruidosos ao integrar pistas visuais. Embora avanços recentes integrem Modelos de Linguagem de Grande Escala (LLMs) ao AVSR, seu alto custo computacional dificulta a implantação em ambientes com recursos limitados. Para resolver isso, propomos o Llama-SMoP, um LLM Multimodal eficiente que emprega um módulo de Mistura Esparsa de Projetores (SMoP) para escalar a capacidade do modelo sem aumentar os custos de inferência. Ao incorporar projetores de mistura de especialistas (MoE) com portas esparsas, o Llama-SMoP permite o uso de LLMs menores enquanto mantém um desempenho forte. Exploramos três configurações de SMoP e mostramos que o Llama-SMoP DEDR (Especialistas Disjuntos, Roteadores Disjuntos), que utiliza roteadores e especialistas específicos por modalidade, alcança desempenho superior em tarefas de ASR, VSR e AVSR. Estudos de ablação confirmam sua eficácia na ativação de especialistas, escalabilidade e robustez ao ruído.
English
Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy
environments by integrating visual cues. While recent advances integrate Large
Language Models (LLMs) into AVSR, their high computational cost hinders
deployment in resource-constrained settings. To address this, we propose
Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of
Projectors (SMoP) module to scale model capacity without increasing inference
costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors,
Llama-SMoP enables the use of smaller LLMs while maintaining strong
performance. We explore three SMoP configurations and show that Llama-SMoP DEDR
(Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and
experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation
studies confirm its effectiveness in expert activation, scalability, and noise
robustness.