Zero-AVSR: 언어-중립적 음성 표현 학습을 통한 LLM 기반 제로샷 오디오-비주얼 음성 인식
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
March 8, 2025
저자: Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
cs.AI
초록
우리는 새로운 제로샷 오디오-비주얼 음성 인식(AVSR) 프레임워크인 Zero-AVSR를 탐구하며, 이는 대상 언어에서의 오디오-비주얼 음성 데이터 없이도 해당 언어의 음성 인식을 가능하게 합니다. 구체적으로, 우리는 로마자 텍스트를 예측함으로써 언어에 구애받지 않는 음성 표현을 학습하는 오디오-비주얼 음성 로마자 변환기(AV-Romanizer)를 소개합니다. 그런 다음, 대형 언어 모델(LLM)의 강력한 다국어 모델링 능력을 활용하여 예측된 로마자 텍스트를 언어별 문자로 변환하는 Cascaded Zero-AVSR를 제안합니다. 이를 한 단계 더 나아가, AV-Romanizer에 의해 인코딩된 오디오-비주얼 음성 표현을 LLM에 직접 통합하는 통합 Zero-AVSR 접근 방식을 탐구합니다. 이는 우리가 제안한 다중 작업 학습 방식을 통해 어댑터와 LLM을 미세 조정함으로써 달성됩니다. 음성 및 언어적 다양성의 광범위한 스펙트럼을 포착하기 위해, 우리는 또한 82개 언어에 걸쳐 2,916시간의 오디오-비주얼 음성 데이터와 언어별 문자 및 로마자 텍스트로 된 전사를 포함한 다국어 오디오-비주얼 로마자 코퍼스(MARC)를 소개합니다. 광범위한 분석과 실험을 통해 제안된 Zero-AVSR 프레임워크가 AV-Romanizer의 훈련 중에 접한 언어를 넘어 언어 지원을 확장할 수 있는 잠재력이 있음을 확인했습니다.
English
We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR)
framework, dubbed Zero-AVSR, which enables speech recognition in target
languages without requiring any audio-visual speech data in those languages.
Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer),
which learns language-agnostic speech representations by predicting Roman text.
Then, by leveraging the strong multilingual modeling capabilities of Large
Language Models (LLMs), we propose converting the predicted Roman text into
language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it
a step further, we explore a unified Zero-AVSR approach by directly integrating
the audio-visual speech representations encoded by the AV-Romanizer into the
LLM. This is achieved through finetuning the adapter and the LLM using our
proposed multi-task learning scheme. To capture the wide spectrum of phonetic
and linguistic diversity, we also introduce a Multilingual Audio-Visual
Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data
across 82 languages, along with transcriptions in both language-specific
graphemes and Roman text. Extensive analysis and experiments confirm that the
proposed Zero-AVSR framework has the potential to expand language support
beyond the languages seen during the training of the AV-Romanizer.Summary
AI-Generated Summary