Schaalbaarheid en Verbetering van LLM-gebaseerde AVSR: Een Benadering met een Sparse Mixture of Projectors

Samenvatting

Audio-Visual Speech Recognition (AVSR) verbetert de robuustheid in lawaaierige omgevingen door visuele signalen te integreren. Hoewel recente ontwikkelingen Large Language Models (LLMs) in AVSR integreren, beperken de hoge rekenkosten de inzet in omgevingen met beperkte middelen. Om dit aan te pakken, stellen we Llama-SMoP voor, een efficiënte Multimodale LLM die gebruikmaakt van een Sparse Mixture of Projectors (SMoP)-module om de modelcapaciteit te vergroten zonder de inferentiekosten te verhogen. Door sparsely-gated mixture-of-experts (MoE)-projectors te integreren, maakt Llama-SMoP het mogelijk om kleinere LLMs te gebruiken terwijl sterke prestaties behouden blijven. We onderzoeken drie SMoP-configuraties en tonen aan dat Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), dat gebruikmaakt van modalitiespecifieke routers en experts, superieure prestaties behaalt bij ASR-, VSR- en AVSR-taken. Ablatiestudies bevestigen de effectiviteit op het gebied van expertactivatie, schaalbaarheid en ruisbestendigheid.

English

Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy environments by integrating visual cues. While recent advances integrate Large Language Models (LLMs) into AVSR, their high computational cost hinders deployment in resource-constrained settings. To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors, Llama-SMoP enables the use of smaller LLMs while maintaining strong performance. We explore three SMoP configurations and show that Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation studies confirm its effectiveness in expert activation, scalability, and noise robustness.

Schaalbaarheid en Verbetering van LLM-gebaseerde AVSR: Een Benadering met een Sparse Mixture of Projectors

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

Samenvatting

Support