L'apprentissage en contexte améliore la reconnaissance vocale grâce à une adaptation humaine aux locuteurs et aux variétés linguistiques
In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties
May 20, 2025
Auteurs: Nathan Roll, Calbert Graham, Yuka Tatsumi, Kim Tien Nguyen, Meghan Sumner, Dan Jurafsky
cs.AI
Résumé
Les auditeurs humains s'adaptent facilement à des locuteurs et des variétés linguistiques inconnus grâce à l'exposition, mais ces bénéfices d'adaptation s'étendent-ils aux modèles de langage parlés les plus avancés ? Nous introduisons un cadre évolutif permettant l'apprentissage en contexte (ICL) dans Phi-4 Multimodal en utilisant des invites de tâches entrelacées et des paires audio-texte, et constatons qu'aussi peu que 12 énoncés exemples (~50 secondes) au moment de l'inférence réduisent les taux d'erreur sur les mots de 19,7 % (1,2 point de pourcentage) en moyenne sur divers corpus anglais. Ces améliorations sont plus marquées pour les variétés à faibles ressources, lorsque le contexte et le locuteur cible correspondent, et lorsque davantage d'exemples sont fournis—bien que la mise à l'échelle de notre procédure entraîne des rendements marginaux décroissants par rapport à la longueur du contexte. Globalement, nous constatons que notre nouveau schéma d'adaptation ICL (1) révèle un profil de performance similaire à celui des auditeurs humains, et (2) démontre des améliorations constantes de la robustesse de la reconnaissance automatique de la parole (ASR) pour divers locuteurs et origines linguistiques. Bien que l'adaptation réussisse globalement, des écarts significatifs persistent pour certaines variétés, révélant où les modèles actuels ne parviennent pas encore à égaler la flexibilité humaine. Nous publions nos invites et notre code sur GitHub.
English
Human listeners readily adjust to unfamiliar speakers and language varieties
through exposure, but do these adaptation benefits extend to state-of-the-art
spoken language models? We introduce a scalable framework that allows for
in-context learning (ICL) in Phi-4 Multimodal using interleaved task prompts
and audio-text pairs, and find that as few as 12 example utterances (~50
seconds) at inference time reduce word error rates by a relative 19.7% (1.2
pp.) on average across diverse English corpora. These improvements are most
pronounced in low-resource varieties, when the context and target speaker
match, and when more examples are provided--though scaling our procedure yields
diminishing marginal returns to context length. Overall, we find that our novel
ICL adaptation scheme (1) reveals a similar performance profile to human
listeners, and (2) demonstrates consistent improvements to automatic speech
recognition (ASR) robustness across diverse speakers and language backgrounds.
While adaptation succeeds broadly, significant gaps remain for certain
varieties, revealing where current models still fall short of human
flexibility. We release our prompts and code on GitHub.Summary
AI-Generated Summary