Omni-AVSR: 대규모 언어 모델 기반 통합 멀티모달 음성 인식 기술
Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models
November 10, 2025
저자: Umberto Cappellazzo, Xubo Liu, Pingchuan Ma, Stavros Petridis, Maja Pantic
cs.AI
초록
대규모 언어 모델(LLM)은 최근 청각 음성 인식(ASR), 시각 음성 인식(VSR), 그리고 오디오-시각 음성 인식(AVSR)을 포함한 다중 양식 간 음성 인식 분야에서 인상적인 성과를 거두었습니다. 이러한 진전에도 불구하고, 현재의 LLM 기반 접근법은 일반적으로 각 작업을 독립적으로 처리하여 별도의 모델을 학습시키며, 이는 계산 및 배포 자원 사용을 증가시키고 작업 간 시너지 효과를 놓치게 합니다. 또한 고정 비율 토큰 압축에 의존하여 정확도와 효율성 간의 균형을 유연하게 조정하는 데 제약이 있습니다. 이러한 한계점들은 ASR, VSR, AVSR을 모두 지원하면서 탄력적인 추론을 가능하게 하는 통합 프레임워크의 필요성을 부각시킵니다. 이를 위해 우리는 효율적인 다중 세분성 학습과 매개변수 효율적 적응을 결합한 통합 오디오-비주얼 LLM인 Omni-AVSR을 제안합니다. 구체적으로, 우리는 마트료시카 표현 학습 패러다임을 적용하여 다중 오디오 및 시각 세분성 간 효율적인 학습을 수행함으로써 내재된 학습 자원 사용을 줄입니다. 더 나아가, 백본 LLM을 적응시키기 위한 세 가지 LoRA 기반 전략을 탐구하여 공유된 특화와 작업별 특화 간의 균형을 맞춥니다. LRS2와 LRS3에 대한 실험 결과, Omni-AVSR은 단일 모델을 훨씬 낮은 학습 및 배포 자원으로 학습시키면서도 최신 기준 모델들과 견줄 만하거나 더 나은 정확도를 달성함을 보여줍니다. 또한 해당 모델은 음향 노이즈 하에서도 견고성을 유지하며, 우리는 LLM 크기가 증가함에 따른 확장 행동을 분석하여 성능과 효율성 간의 트레이드오프에 대한 통찰을 제공합니다.
English
Large language models (LLMs) have recently achieved impressive results in
speech recognition across multiple modalities, including Auditory Speech
Recognition (ASR), Visual Speech Recognition (VSR), and Audio-Visual Speech
Recognition (AVSR). Despite this progress, current LLM-based approaches
typically address each task independently, training separate models that raise
computational and deployment resource use while missing potential cross-task
synergies. They also rely on fixed-rate token compression, which restricts
flexibility in balancing accuracy with efficiency. These limitations highlight
the need for a unified framework that can support ASR, VSR, and AVSR while
enabling elastic inference. To this end, we present Omni-AVSR, a unified
audio-visual LLM that combines efficient multi-granularity training with
parameter-efficient adaptation. Specifically, we adapt the matryoshka
representation learning paradigm to efficiently train across multiple audio and
visual granularities, reducing its inherent training resource use. Furthermore,
we explore three LoRA-based strategies for adapting the backbone LLM, balancing
shared and task-specific specialization. Experiments on LRS2 and LRS3 show that
Omni-AVSR achieves comparable or superior accuracy to state-of-the-art
baselines while training a single model at substantially lower training and
deployment resource use. The model also remains robust under acoustic noise,
and we analyze its scaling behavior as LLM size increases, providing insights
into the trade-off between performance and efficiency.