ChatPaper.aiChatPaper

Масштабирование и улучшение AVSR на основе LLM: подход с использованием разреженной смеси проекторов

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

May 20, 2025
Авторы: Umberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti
cs.AI

Аннотация

Аудиовизуальное распознавание речи (AVSR) повышает устойчивость в шумных условиях за счет интеграции визуальных сигналов. Хотя последние достижения включают большие языковые модели (LLM) в AVSR, их высокая вычислительная стоимость затрудняет развертывание в условиях ограниченных ресурсов. Для решения этой проблемы мы предлагаем Llama-SMoP, эффективную мультимодальную LLM, которая использует модуль Sparse Mixture of Projectors (SMoP) для масштабирования емкости модели без увеличения затрат на вывод. Внедряя разреженно-управляемые проекторы на основе смеси экспертов (MoE), Llama-SMoP позволяет использовать меньшие LLM, сохраняя при этом высокую производительность. Мы исследуем три конфигурации SMoP и показываем, что Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), использующий модально-специфичные маршрутизаторы и эксперты, достигает превосходных результатов в задачах ASR, VSR и AVSR. Абляционные исследования подтверждают его эффективность в активации экспертов, масштабируемости и устойчивости к шуму.
English
Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy environments by integrating visual cues. While recent advances integrate Large Language Models (LLMs) into AVSR, their high computational cost hinders deployment in resource-constrained settings. To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors, Llama-SMoP enables the use of smaller LLMs while maintaining strong performance. We explore three SMoP configurations and show that Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation studies confirm its effectiveness in expert activation, scalability, and noise robustness.

Summary

AI-Generated Summary

PDF22May 22, 2025