ChatPaper.aiChatPaper

文脈内学習による音声認識の向上:話者と言語変種への人間らしい適応

In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties

May 20, 2025
著者: Nathan Roll, Calbert Graham, Yuka Tatsumi, Kim Tien Nguyen, Meghan Sumner, Dan Jurafsky
cs.AI

要旨

人間の聴取者は、不慣れな話者や言語の多様性に容易に適応しますが、この適応の恩恵は最先端の音声言語モデルにも及ぶのでしょうか?本研究では、Phi-4 Multimodalにおいて、タスクプロンプトと音声-テキストペアを交互に配置することで、コンテキスト内学習(ICL)を可能にするスケーラブルなフレームワークを導入しました。その結果、推論時にわずか12の発話例(約50秒)を提示するだけで、多様な英語コーパス全体で単語誤り率が相対的に19.7%(1.2ポイント)減少することがわかりました。これらの改善は、低リソースの言語変種において、コンテキストと対象話者が一致する場合、およびより多くの例が提供される場合に最も顕著です。ただし、手順をスケールアップすると、コンテキスト長に対する限界収益は逓減します。全体として、我々の新しいICL適応スキームは、(1)人間の聴取者と同様のパフォーマンスプロファイルを示し、(2)多様な話者や言語背景にわたって自動音声認識(ASR)の堅牢性を一貫して向上させることがわかりました。適応は広範囲で成功していますが、特定の言語変種では依然として大きなギャップが残っており、現在のモデルが人間の柔軟性に及ばない領域が明らかになりました。我々はプロンプトとコードをGitHubで公開しています。
English
Human listeners readily adjust to unfamiliar speakers and language varieties through exposure, but do these adaptation benefits extend to state-of-the-art spoken language models? We introduce a scalable framework that allows for in-context learning (ICL) in Phi-4 Multimodal using interleaved task prompts and audio-text pairs, and find that as few as 12 example utterances (~50 seconds) at inference time reduce word error rates by a relative 19.7% (1.2 pp.) on average across diverse English corpora. These improvements are most pronounced in low-resource varieties, when the context and target speaker match, and when more examples are provided--though scaling our procedure yields diminishing marginal returns to context length. Overall, we find that our novel ICL adaptation scheme (1) reveals a similar performance profile to human listeners, and (2) demonstrates consistent improvements to automatic speech recognition (ASR) robustness across diverse speakers and language backgrounds. While adaptation succeeds broadly, significant gaps remain for certain varieties, revealing where current models still fall short of human flexibility. We release our prompts and code on GitHub.

Summary

AI-Generated Summary

PDF02May 23, 2025