ChatPaper.aiChatPaper

Escalonamento e Aprimoramento de AVSR Baseado em LLM: Uma Abordagem de Mistura Esparsa de Projetores

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

May 20, 2025
Autores: Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti
cs.AI

Resumo

O Reconhecimento de Fala Áudio-Visual (AVSR) aumenta a robustez em ambientes ruidosos ao integrar pistas visuais. Embora avanços recentes integrem Modelos de Linguagem de Grande Escala (LLMs) ao AVSR, seu alto custo computacional dificulta a implantação em ambientes com recursos limitados. Para resolver isso, propomos o Llama-SMoP, um LLM Multimodal eficiente que emprega um módulo de Mistura Esparsa de Projetores (SMoP) para escalar a capacidade do modelo sem aumentar os custos de inferência. Ao incorporar projetores de mistura de especialistas (MoE) com portas esparsas, o Llama-SMoP permite o uso de LLMs menores enquanto mantém um desempenho forte. Exploramos três configurações de SMoP e mostramos que o Llama-SMoP DEDR (Especialistas Disjuntos, Roteadores Disjuntos), que utiliza roteadores e especialistas específicos por modalidade, alcança desempenho superior em tarefas de ASR, VSR e AVSR. Estudos de ablação confirmam sua eficácia na ativação de especialistas, escalabilidade e robustez ao ruído.
English
Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy environments by integrating visual cues. While recent advances integrate Large Language Models (LLMs) into AVSR, their high computational cost hinders deployment in resource-constrained settings. To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors, Llama-SMoP enables the use of smaller LLMs while maintaining strong performance. We explore three SMoP configurations and show that Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation studies confirm its effectiveness in expert activation, scalability, and noise robustness.
PDF32December 8, 2025