Reconhecimento de Fala Áudio-Visual Adaptativo via LLMs Multimodais Baseados em Matryoshka
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs
March 9, 2025
Autores: Umberto Cappellazzo, Minsu Kim, Stavros Petridis
cs.AI
Resumo
O Reconhecimento de Fala Áudio-Visual (AVSR) aproveita tanto as modalidades de áudio quanto visuais para aumentar a robustez do reconhecimento de fala, especialmente em ambientes ruidosos. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado sua eficácia no reconhecimento de fala, incluindo o AVSR. No entanto, devido ao comprimento significativo das representações de fala, a integração direta com LLMs impõe custos computacionais substanciais. Abordagens anteriores lidam com isso comprimindo as representações de fala antes de alimentá-las nos LLMs. No entanto, taxas de compressão mais altas frequentemente levam à degradação do desempenho, exigindo um equilíbrio entre eficiência computacional e precisão de reconhecimento. Para enfrentar esse desafio, propomos o Llama-MTSK, o primeiro LLM Multimodal baseado em Matryoshka para AVSR, que permite a adaptação flexível da alocação de tokens áudio-visuais com base em restrições computacionais específicas, mantendo um alto desempenho. Nossa abordagem, inspirada no Aprendizado de Representação Matryoshka, codifica representações áudio-visuais em múltiplas granularidades dentro de um único modelo, eliminando a necessidade de treinar modelos separados para diferentes níveis de compressão. Além disso, para ajustar eficientemente o LLM, introduzimos três estratégias Matryoshka baseadas em LoRA, utilizando módulos LoRA globais e específicos de escala. Avaliações extensivas nos dois maiores conjuntos de dados de AVSR demonstram que o Llama-MTSK alcança resultados de ponta, igualando ou superando modelos treinados independentemente em níveis de compressão fixos.
English
Audio-Visual Speech Recognition (AVSR) leverages both audio and visual
modalities to enhance speech recognition robustness, particularly in noisy
environments. Recent advancements in Large Language Models (LLMs) have
demonstrated their effectiveness in speech recognition, including AVSR.
However, due to the significant length of speech representations, direct
integration with LLMs imposes substantial computational costs. Prior approaches
address this by compressing speech representations before feeding them into
LLMs. However, higher compression ratios often lead to performance degradation,
necessitating a trade-off between computational efficiency and recognition
accuracy. To address this challenge, we propose Llama-MTSK, the first
Matryoshka-based Multimodal LLM for AVSR, which enables flexible adaptation of
the audio-visual token allocation based on specific computational constraints
while preserving high performance. Our approach, inspired by Matryoshka
Representation Learning, encodes audio-visual representations at multiple
granularities within a single model, eliminating the need to train separate
models for different compression levels. Moreover, to efficiently fine-tune the
LLM, we introduce three LoRA-based Matryoshka strategies using global and
scale-specific LoRA modules. Extensive evaluations on the two largest AVSR
datasets demonstrate that Llama-MTSK achieves state-of-the-art results,
matching or surpassing models trained independently at fixed compression
levels.Summary
AI-Generated Summary