LLM 기반 AVSR의 확장 및 향상: 희소 프로젝터 혼합 접근법
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach
May 20, 2025
저자: Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti
cs.AI
초록
오디오-비주얼 음성 인식(AVSR)은 시각적 단서를 통합함으로써 잡음이 많은 환경에서의 견고성을 향상시킵니다. 최근의 발전은 대형 언어 모델(LLM)을 AVSR에 통합하고 있지만, 이들의 높은 계산 비용은 자원이 제한된 환경에서의 배포를 방해합니다. 이를 해결하기 위해, 우리는 추론 비용을 증가시키지 않으면서 모델 용량을 확장하기 위해 Sparse Mixture of Projectors(SMoP) 모듈을 사용하는 효율적인 멀티모달 LLM인 Llama-SMoP를 제안합니다. 희소 게이트 방식의 전문가 혼합(MoE) 프로젝터를 통합함으로써, Llama-SMoP는 더 작은 LLM을 사용하면서도 강력한 성능을 유지할 수 있습니다. 우리는 세 가지 SMoP 구성을 탐구하고, 모달리티별 라우터와 전문가를 사용하는 Llama-SMoP DEDR(Disjoint-Experts, Disjoint-Routers)이 ASR, VSR 및 AVSR 작업에서 우수한 성능을 달성함을 보여줍니다. 제거 연구는 전문가 활성화, 확장성 및 잡음 견고성에서의 효과를 확인합니다.
English
Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy
environments by integrating visual cues. While recent advances integrate Large
Language Models (LLMs) into AVSR, their high computational cost hinders
deployment in resource-constrained settings. To address this, we propose
Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of
Projectors (SMoP) module to scale model capacity without increasing inference
costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors,
Llama-SMoP enables the use of smaller LLMs while maintaining strong
performance. We explore three SMoP configurations and show that Llama-SMoP DEDR
(Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and
experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation
studies confirm its effectiveness in expert activation, scalability, and noise
robustness.Summary
AI-Generated Summary