ChatPaper.aiChatPaper

Matryoshka 기반 멀티모달 LLM을 통한 적응형 오디오-비주얼 음성 인식

Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs

March 9, 2025
저자: Umberto Cappellazzo, Minsu Kim, Stavros Petridis
cs.AI

초록

오디오-비주얼 음성 인식(AVSR)은 오디오와 시각적 양상을 모두 활용하여, 특히 잡음이 많은 환경에서 음성 인식의 견고성을 향상시킵니다. 최근 대형 언어 모델(LLMs)의 발전은 AVSR을 포함한 음성 인식 분야에서 그 효과를 입증했습니다. 그러나 음성 표현의 상당한 길이로 인해 LLMs와의 직접적인 통합은 상당한 계산 비용을 초래합니다. 기존 접근 방식은 이를 해결하기 위해 음성 표현을 압축한 후 LLMs에 입력하는 방법을 사용했습니다. 그러나 높은 압축률은 종종 성능 저하를 초래하여 계산 효율성과 인식 정확도 사이의 균형을 필요로 합니다. 이러한 문제를 해결하기 위해, 우리는 Llama-MTSK를 제안합니다. 이는 Matryoshka 표현 학습에서 영감을 받아 특정 계산 제약에 따라 오디오-비주얼 토큰 할당을 유연하게 조정하면서도 높은 성능을 유지할 수 있는 최초의 Matryoshka 기반 다중 모달 LLM입니다. 우리의 접근 방식은 단일 모델 내에서 여러 세분화 수준으로 오디오-비주얼 표현을 인코딩하여, 다양한 압축 수준에 대해 별도의 모델을 훈련할 필요를 없앱니다. 또한, LLM을 효율적으로 미세 조정하기 위해 전역 및 스케일별 LoRA 모듈을 사용한 세 가지 LoRA 기반 Matryoshka 전략을 도입했습니다. 두 개의 가장 큰 AVSR 데이터셋에 대한 광범위한 평가 결과, Llama-MTSK는 고정된 압축 수준에서 독립적으로 훈련된 모델을 능가하거나 동등한 최첨단 결과를 달성함을 보여줍니다.
English
Audio-Visual Speech Recognition (AVSR) leverages both audio and visual modalities to enhance speech recognition robustness, particularly in noisy environments. Recent advancements in Large Language Models (LLMs) have demonstrated their effectiveness in speech recognition, including AVSR. However, due to the significant length of speech representations, direct integration with LLMs imposes substantial computational costs. Prior approaches address this by compressing speech representations before feeding them into LLMs. However, higher compression ratios often lead to performance degradation, necessitating a trade-off between computational efficiency and recognition accuracy. To address this challenge, we propose Llama-MTSK, the first Matryoshka-based Multimodal LLM for AVSR, which enables flexible adaptation of the audio-visual token allocation based on specific computational constraints while preserving high performance. Our approach, inspired by Matryoshka Representation Learning, encodes audio-visual representations at multiple granularities within a single model, eliminating the need to train separate models for different compression levels. Moreover, to efficiently fine-tune the LLM, we introduce three LoRA-based Matryoshka strategies using global and scale-specific LoRA modules. Extensive evaluations on the two largest AVSR datasets demonstrate that Llama-MTSK achieves state-of-the-art results, matching or surpassing models trained independently at fixed compression levels.

Summary

AI-Generated Summary

PDF32March 11, 2025