ChatPaper.aiChatPaper

Escalado y Mejora de AVSR Basado en LLM: Un Enfoque de Mezcla Dispersa de Proyectores

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

May 20, 2025
Autores: Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti
cs.AI

Resumen

El Reconocimiento de Habla Audio-Visual (AVSR) mejora la robustez en entornos ruidosos al integrar señales visuales. Si bien los avances recientes incorporan Modelos de Lenguaje de Gran Escala (LLMs) en AVSR, su alto costo computacional dificulta su implementación en entornos con recursos limitados. Para abordar esto, proponemos Llama-SMoP, un LLM multimodal eficiente que emplea un módulo de Mezcla Dispersa de Proyectores (SMoP) para escalar la capacidad del modelo sin aumentar los costos de inferencia. Al incorporar proyectores de mezcla de expertos con compuertas dispersas (MoE), Llama-SMoP permite el uso de LLMs más pequeños mientras mantiene un rendimiento sólido. Exploramos tres configuraciones de SMoP y demostramos que Llama-SMoP DEDR (Expertos Disjuntos, Enrutadores Disjuntos), que utiliza enrutadores y expertos específicos por modalidad, logra un rendimiento superior en tareas de ASR, VSR y AVSR. Los estudios de ablación confirman su eficacia en la activación de expertos, escalabilidad y robustez frente al ruido.
English
Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy environments by integrating visual cues. While recent advances integrate Large Language Models (LLMs) into AVSR, their high computational cost hinders deployment in resource-constrained settings. To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors, Llama-SMoP enables the use of smaller LLMs while maintaining strong performance. We explore three SMoP configurations and show that Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation studies confirm its effectiveness in expert activation, scalability, and noise robustness.

Summary

AI-Generated Summary

PDF22May 22, 2025