Reconhecimento de Fala Áudio-Visual Adaptativo via LLMs Multimodais Baseados em Matryoshka

Resumo

O Reconhecimento de Fala Áudio-Visual (AVSR) aproveita tanto as modalidades de áudio quanto visuais para aumentar a robustez do reconhecimento de fala, especialmente em ambientes ruidosos. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado sua eficácia no reconhecimento de fala, incluindo o AVSR. No entanto, devido ao comprimento significativo das representações de fala, a integração direta com LLMs impõe custos computacionais substanciais. Abordagens anteriores lidam com isso comprimindo as representações de fala antes de alimentá-las nos LLMs. No entanto, taxas de compressão mais altas frequentemente levam à degradação do desempenho, exigindo um equilíbrio entre eficiência computacional e precisão de reconhecimento. Para enfrentar esse desafio, propomos o Llama-MTSK, o primeiro LLM Multimodal baseado em Matryoshka para AVSR, que permite a adaptação flexível da alocação de tokens áudio-visuais com base em restrições computacionais específicas, mantendo um alto desempenho. Nossa abordagem, inspirada no Aprendizado de Representação Matryoshka, codifica representações áudio-visuais em múltiplas granularidades dentro de um único modelo, eliminando a necessidade de treinar modelos separados para diferentes níveis de compressão. Além disso, para ajustar eficientemente o LLM, introduzimos três estratégias Matryoshka baseadas em LoRA, utilizando módulos LoRA globais e específicos de escala. Avaliações extensivas nos dois maiores conjuntos de dados de AVSR demonstram que o Llama-MTSK alcança resultados de ponta, igualando ou superando modelos treinados independentemente em níveis de compressão fixos.

English

Audio-Visual Speech Recognition (AVSR) leverages both audio and visual modalities to enhance speech recognition robustness, particularly in noisy environments. Recent advancements in Large Language Models (LLMs) have demonstrated their effectiveness in speech recognition, including AVSR. However, due to the significant length of speech representations, direct integration with LLMs imposes substantial computational costs. Prior approaches address this by compressing speech representations before feeding them into LLMs. However, higher compression ratios often lead to performance degradation, necessitating a trade-off between computational efficiency and recognition accuracy. To address this challenge, we propose Llama-MTSK, the first Matryoshka-based Multimodal LLM for AVSR, which enables flexible adaptation of the audio-visual token allocation based on specific computational constraints while preserving high performance. Our approach, inspired by Matryoshka Representation Learning, encodes audio-visual representations at multiple granularities within a single model, eliminating the need to train separate models for different compression levels. Moreover, to efficiently fine-tune the LLM, we introduce three LoRA-based Matryoshka strategies using global and scale-specific LoRA modules. Extensive evaluations on the two largest AVSR datasets demonstrate that Llama-MTSK achieves state-of-the-art results, matching or surpassing models trained independently at fixed compression levels.

Reconhecimento de Fala Áudio-Visual Adaptativo via LLMs Multimodais Baseados em Matryoshka

Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs

Resumo

Summary

Support

Support