Zero-AVSR: 言語非依存の音声表現を学習するLLMによるゼロショット音声視覚認識
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
March 8, 2025
著者: Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
cs.AI
要旨
我々は、新しいゼロショット音声視覚音声認識(AVSR)フレームワーク「Zero-AVSR」を探求する。このフレームワークは、対象言語の音声視覚データを一切必要とせずに、その言語での音声認識を可能にする。具体的には、ローマ字テキストを予測することで言語に依存しない音声表現を学習する「音声視覚音声ローマ字化器(AV-Romanizer)」を導入する。次に、大規模言語モデル(LLM)の強力な多言語モデリング能力を活用して、予測されたローマ字テキストを言語固有の書記素に変換する「カスケード型Zero-AVSR」を提案する。さらに一歩進めて、AV-Romanizerによってエンコードされた音声視覚音声表現をLLMに直接統合する統一型Zero-AVSRアプローチを探求する。これは、提案するマルチタスク学習スキームを使用してアダプタとLLMをファインチューニングすることで実現される。音声と言語の多様性の広範なスペクトルを捉えるために、82言語にわたる2,916時間の音声視覚音声データと、言語固有の書記素およびローマ字テキストによる転写を含む「多言語音声視覚ローマ字化コーパス(MARC)」も導入する。詳細な分析と実験により、提案するZero-AVSRフレームワークが、AV-Romanizerのトレーニング中に見られた言語を超えて言語サポートを拡大する可能性があることが確認された。
English
We explore a novel zero-shot Audio-Visual Speech Recognition (AVSR)
framework, dubbed Zero-AVSR, which enables speech recognition in target
languages without requiring any audio-visual speech data in those languages.
Specifically, we introduce the Audio-Visual Speech Romanizer (AV-Romanizer),
which learns language-agnostic speech representations by predicting Roman text.
Then, by leveraging the strong multilingual modeling capabilities of Large
Language Models (LLMs), we propose converting the predicted Roman text into
language-specific graphemes, forming the proposed Cascaded Zero-AVSR. Taking it
a step further, we explore a unified Zero-AVSR approach by directly integrating
the audio-visual speech representations encoded by the AV-Romanizer into the
LLM. This is achieved through finetuning the adapter and the LLM using our
proposed multi-task learning scheme. To capture the wide spectrum of phonetic
and linguistic diversity, we also introduce a Multilingual Audio-Visual
Romanized Corpus (MARC) consisting of 2,916 hours of audio-visual speech data
across 82 languages, along with transcriptions in both language-specific
graphemes and Roman text. Extensive analysis and experiments confirm that the
proposed Zero-AVSR framework has the potential to expand language support
beyond the languages seen during the training of the AV-Romanizer.Summary
AI-Generated Summary