マトリョーシカベースのマルチモーダルLLMによる適応型音声視覚音声認識
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs
March 9, 2025
著者: Umberto Cappellazzo, Minsu Kim, Stavros Petridis
cs.AI
要旨
音声視覚融合音声認識(AVSR)は、音声と視覚の両モダリティを活用することで、特に騒音環境下での音声認識の頑健性を向上させます。近年の大規模言語モデル(LLM)の進展は、AVSRを含む音声認識分野での有効性を実証しています。しかし、音声表現の長大さから、LLMとの直接統合は多大な計算コストを伴います。これまでのアプローチでは、LLMに入力する前に音声表現を圧縮することでこの課題に対処してきました。しかし、高い圧縮率は性能低下を招き、計算効率と認識精度のトレードオフを必要とします。この課題を解決するため、我々はMatryoshka表現学習に着想を得たLlama-MTSKを提案します。これは、特定の計算制約に基づいて音声視覚トークンの割り当てを柔軟に適応させながら、高い性能を維持する初のMatryoshkaベースのマルチモーダルLLMです。本手法では、単一モデル内で複数の粒度で音声視覚表現を符号化し、異なる圧縮レベルごとに個別のモデルを訓練する必要をなくします。さらに、LLMを効率的にファインチューンするため、グローバルおよびスケール固有のLoRAモジュールを用いた3つのLoRAベースのMatryoshka戦略を導入します。2つの大規模AVSRデータセットでの広範な評価により、Llama-MTSKが固定圧縮レベルで独立に訓練されたモデルに匹敵または凌駕する最先端の結果を達成することが示されました。
English
Audio-Visual Speech Recognition (AVSR) leverages both audio and visual
modalities to enhance speech recognition robustness, particularly in noisy
environments. Recent advancements in Large Language Models (LLMs) have
demonstrated their effectiveness in speech recognition, including AVSR.
However, due to the significant length of speech representations, direct
integration with LLMs imposes substantial computational costs. Prior approaches
address this by compressing speech representations before feeding them into
LLMs. However, higher compression ratios often lead to performance degradation,
necessitating a trade-off between computational efficiency and recognition
accuracy. To address this challenge, we propose Llama-MTSK, the first
Matryoshka-based Multimodal LLM for AVSR, which enables flexible adaptation of
the audio-visual token allocation based on specific computational constraints
while preserving high performance. Our approach, inspired by Matryoshka
Representation Learning, encodes audio-visual representations at multiple
granularities within a single model, eliminating the need to train separate
models for different compression levels. Moreover, to efficiently fine-tune the
LLM, we introduce three LoRA-based Matryoshka strategies using global and
scale-specific LoRA modules. Extensive evaluations on the two largest AVSR
datasets demonstrate that Llama-MTSK achieves state-of-the-art results,
matching or surpassing models trained independently at fixed compression
levels.Summary
AI-Generated Summary