Escalado y Mejora de AVSR Basado en LLM: Un Enfoque de Mezcla Dispersa de Proyectores
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
May 20, 2025
Autores: Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti
cs.AI
Resumen
El Reconocimiento de Habla Audio-Visual (AVSR) mejora la robustez en entornos ruidosos al integrar señales visuales. Si bien los avances recientes incorporan Modelos de Lenguaje de Gran Escala (LLMs) en AVSR, su alto costo computacional dificulta su implementación en entornos con recursos limitados. Para abordar esto, proponemos Llama-SMoP, un LLM multimodal eficiente que emplea un módulo de Mezcla Dispersa de Proyectores (SMoP) para escalar la capacidad del modelo sin aumentar los costos de inferencia. Al incorporar proyectores de mezcla de expertos con compuertas dispersas (MoE), Llama-SMoP permite el uso de LLMs más pequeños mientras mantiene un rendimiento sólido. Exploramos tres configuraciones de SMoP y demostramos que Llama-SMoP DEDR (Expertos Disjuntos, Enrutadores Disjuntos), que utiliza enrutadores y expertos específicos por modalidad, logra un rendimiento superior en tareas de ASR, VSR y AVSR. Los estudios de ablación confirman su eficacia en la activación de expertos, escalabilidad y robustez frente al ruido.
English
Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy
environments by integrating visual cues. While recent advances integrate Large
Language Models (LLMs) into AVSR, their high computational cost hinders
deployment in resource-constrained settings. To address this, we propose
Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of
Projectors (SMoP) module to scale model capacity without increasing inference
costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors,
Llama-SMoP enables the use of smaller LLMs while maintaining strong
performance. We explore three SMoP configurations and show that Llama-SMoP DEDR
(Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and
experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation
studies confirm its effectiveness in expert activation, scalability, and noise
robustness.Summary
AI-Generated Summary