Schaalbaarheid en Verbetering van LLM-gebaseerde AVSR: Een Benadering met een Sparse Mixture of Projectors
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
May 20, 2025
Auteurs: Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti
cs.AI
Samenvatting
Audio-Visual Speech Recognition (AVSR) verbetert de robuustheid in lawaaierige omgevingen door visuele signalen te integreren. Hoewel recente ontwikkelingen Large Language Models (LLMs) in AVSR integreren, beperken de hoge rekenkosten de inzet in omgevingen met beperkte middelen. Om dit aan te pakken, stellen we Llama-SMoP voor, een efficiënte Multimodale LLM die gebruikmaakt van een Sparse Mixture of Projectors (SMoP)-module om de modelcapaciteit te vergroten zonder de inferentiekosten te verhogen. Door sparsely-gated mixture-of-experts (MoE)-projectors te integreren, maakt Llama-SMoP het mogelijk om kleinere LLMs te gebruiken terwijl sterke prestaties behouden blijven. We onderzoeken drie SMoP-configuraties en tonen aan dat Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), dat gebruikmaakt van modalitiespecifieke routers en experts, superieure prestaties behaalt bij ASR-, VSR- en AVSR-taken. Ablatiestudies bevestigen de effectiviteit op het gebied van expertactivatie, schaalbaarheid en ruisbestendigheid.
English
Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy
environments by integrating visual cues. While recent advances integrate Large
Language Models (LLMs) into AVSR, their high computational cost hinders
deployment in resource-constrained settings. To address this, we propose
Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of
Projectors (SMoP) module to scale model capacity without increasing inference
costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors,
Llama-SMoP enables the use of smaller LLMs while maintaining strong
performance. We explore three SMoP configurations and show that Llama-SMoP DEDR
(Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and
experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation
studies confirm its effectiveness in expert activation, scalability, and noise
robustness.