문맥 학습을 통한 화자 및 언어 변이에 대한 인간과 유사한 적응 방식이 음성 인식 성능을 향상시킴
In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties
May 20, 2025
저자: Nathan Roll, Calbert Graham, Yuka Tatsumi, Kim Tien Nguyen, Meghan Sumner, Dan Jurafsky
cs.AI
초록
인간 청취자들은 노출을 통해 익숙하지 않은 화자와 언어 변이체에 쉽게 적응하지만, 이러한 적응 효과가 최첨단 음성 언어 모델까지 확장될까요? 우리는 Phi-4 멀티모달에서 인터리브된 작업 프롬프트와 오디오-텍스트 쌍을 사용하여 컨텍스트 내 학습(ICL)을 가능하게 하는 확장 가능한 프레임워크를 소개하고, 추론 시 단 12개의 예시 발화(약 50초)만으로도 다양한 영어 코퍼스에서 단어 오류율이 평균 19.7%(1.2pp) 상대적으로 감소함을 발견했습니다. 이러한 개선은 저자원 변이체에서, 컨텍스트와 대상 화자가 일치할 때, 그리고 더 많은 예시가 제공될 때 가장 두드러지게 나타났습니다. 그러나 우리의 절차를 확장함에 따라 컨텍스트 길이에 대한 한계 수익이 감소하는 경향을 보였습니다. 전반적으로, 우리의 새로운 ICL 적응 방식은 (1) 인간 청취자와 유사한 성능 프로파일을 보여주고, (2) 다양한 화자와 언어 배경에 걸쳐 자동 음성 인식(ASR)의 견고성을 일관되게 개선함을 입증했습니다. 적응이 광범위하게 성공하긴 했지만, 특정 변이체에서는 여전히 상당한 격차가 남아 있어, 현재 모델이 인간의 유연성에 미치지 못하는 부분을 드러냅니다. 우리는 GitHub에 프롬프트와 코드를 공개했습니다.
English
Human listeners readily adjust to unfamiliar speakers and language varieties
through exposure, but do these adaptation benefits extend to state-of-the-art
spoken language models? We introduce a scalable framework that allows for
in-context learning (ICL) in Phi-4 Multimodal using interleaved task prompts
and audio-text pairs, and find that as few as 12 example utterances (~50
seconds) at inference time reduce word error rates by a relative 19.7% (1.2
pp.) on average across diverse English corpora. These improvements are most
pronounced in low-resource varieties, when the context and target speaker
match, and when more examples are provided--though scaling our procedure yields
diminishing marginal returns to context length. Overall, we find that our novel
ICL adaptation scheme (1) reveals a similar performance profile to human
listeners, and (2) demonstrates consistent improvements to automatic speech
recognition (ASR) robustness across diverse speakers and language backgrounds.
While adaptation succeeds broadly, significant gaps remain for certain
varieties, revealing where current models still fall short of human
flexibility. We release our prompts and code on GitHub.Summary
AI-Generated Summary