Omni-AVSR: 大規模言語モデルによる統合的多モーダル音声認識に向けて
Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models
November 10, 2025
著者: Umberto Cappellazzo, Xubo Liu, Pingchuan Ma, Stavros Petridis, Maja Pantic
cs.AI
要旨
大規模言語モデル(LLM)は近年、聴覚音声認識(ASR)、視覚音声認識(VSR)、聴覚・視覚融合音声認識(AVSR)といった複数モダリティにわたる音声認識分野で顕著な成果を上げている。しかしながら、現在のLLMベースの手法では、各タスクを独立して扱い個別のモデルを学習するのが一般的である。これにより計算資源と導入コストが増大する一方、タスク間の相乗効果を活かしきれていない。さらに、固定レートのトークン圧縮方式に依存するため、精度と効率性の柔軟な両立が制限されている。これらの課題は、ASR・VSR・AVSRを統合的にサポートし、弾力的な推論を可能とする枠組みの必要性を示唆する。本研究では、効率的なマルチ粒度学習とパラメータ効率の良い適応手法を組み合わせた統合型音響・視覚LLM「Omni-AVSR」を提案する。具体的には、マトリョーシカ表現学習のパラダイムを拡張し複数の音響・視覚粒度にわたる効率的な学習を実現することで、本来必要とされる学習リソースを削減する。さらに、LoRAベースの3種類の適応戦略を検討し、バックボーンLLMにおける共有パラメータとタスク特化パラメータの最適なバランスを追求する。LRS2およびLRS3を用いた実験により、Omni-AVSRが単一モデルの学習にもかかわらず、従来の最先端手法と同等あるいはそれ以上の精度を達成し、学習時および推論時のリソース使用量を大幅に低減できることを実証した。本モデルは聴覚的ノイズ下でも頑健性を維持し、LLMサイズ拡大に伴うスケーリング挙動の分析を通じて、性能と効率性のトレードオフに関する知見を提供する。
English
Large language models (LLMs) have recently achieved impressive results in
speech recognition across multiple modalities, including Auditory Speech
Recognition (ASR), Visual Speech Recognition (VSR), and Audio-Visual Speech
Recognition (AVSR). Despite this progress, current LLM-based approaches
typically address each task independently, training separate models that raise
computational and deployment resource use while missing potential cross-task
synergies. They also rely on fixed-rate token compression, which restricts
flexibility in balancing accuracy with efficiency. These limitations highlight
the need for a unified framework that can support ASR, VSR, and AVSR while
enabling elastic inference. To this end, we present Omni-AVSR, a unified
audio-visual LLM that combines efficient multi-granularity training with
parameter-efficient adaptation. Specifically, we adapt the matryoshka
representation learning paradigm to efficiently train across multiple audio and
visual granularities, reducing its inherent training resource use. Furthermore,
we explore three LoRA-based strategies for adapting the backbone LLM, balancing
shared and task-specific specialization. Experiments on LRS2 and LRS3 show that
Omni-AVSR achieves comparable or superior accuracy to state-of-the-art
baselines while training a single model at substantially lower training and
deployment resource use. The model also remains robust under acoustic noise,
and we analyze its scaling behavior as LLM size increases, providing insights
into the trade-off between performance and efficiency.