ChatPaper.aiChatPaper

Mise à l'échelle et amélioration de la reconnaissance automatique de la parole basée sur des LLM : une approche par mélange parcimonieux de projecteurs

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

May 20, 2025
Auteurs: Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti
cs.AI

Résumé

La reconnaissance audio-visuelle de la parole (AVSR) améliore la robustesse dans les environnements bruyants en intégrant des indices visuels. Bien que les avancées récentes intègrent des modèles de langage de grande taille (LLMs) dans l'AVSR, leur coût computationnel élevé entrave leur déploiement dans des environnements à ressources limitées. Pour résoudre ce problème, nous proposons Llama-SMoP, un LLM multimodal efficace qui utilise un module de Projecteurs à Mélange Sparse (SMoP) pour augmenter la capacité du modèle sans accroître les coûts d'inférence. En incorporant des projecteurs à mélange d'experts (MoE) à portes sparses, Llama-SMoP permet l'utilisation de LLMs plus petits tout en maintenant des performances solides. Nous explorons trois configurations SMoP et montrons que Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), qui utilise des routeurs et des experts spécifiques à chaque modalité, obtient des performances supérieures sur les tâches de reconnaissance automatique de la parole (ASR), de reconnaissance visuelle de la parole (VSR) et d'AVSR. Les études d'ablation confirment son efficacité en matière d'activation des experts, de scalabilité et de robustesse au bruit.
English
Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy environments by integrating visual cues. While recent advances integrate Large Language Models (LLMs) into AVSR, their high computational cost hinders deployment in resource-constrained settings. To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors, Llama-SMoP enables the use of smaller LLMs while maintaining strong performance. We explore three SMoP configurations and show that Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation studies confirm its effectiveness in expert activation, scalability, and noise robustness.

Summary

AI-Generated Summary

PDF22May 22, 2025