L'apprentissage en contexte améliore la reconnaissance vocale grâce à une adaptation humaine aux locuteurs et aux variétés linguistiques

papers.abstract

Les auditeurs humains s'adaptent facilement à des locuteurs et des variétés linguistiques inconnus grâce à l'exposition, mais ces bénéfices d'adaptation s'étendent-ils aux modèles de langage parlés les plus avancés ? Nous introduisons un cadre évolutif permettant l'apprentissage en contexte (ICL) dans Phi-4 Multimodal en utilisant des invites de tâches entrelacées et des paires audio-texte, et constatons qu'aussi peu que 12 énoncés exemples (~50 secondes) au moment de l'inférence réduisent les taux d'erreur sur les mots de 19,7 % (1,2 point de pourcentage) en moyenne sur divers corpus anglais. Ces améliorations sont plus marquées pour les variétés à faibles ressources, lorsque le contexte et le locuteur cible correspondent, et lorsque davantage d'exemples sont fournis—bien que la mise à l'échelle de notre procédure entraîne des rendements marginaux décroissants par rapport à la longueur du contexte. Globalement, nous constatons que notre nouveau schéma d'adaptation ICL (1) révèle un profil de performance similaire à celui des auditeurs humains, et (2) démontre des améliorations constantes de la robustesse de la reconnaissance automatique de la parole (ASR) pour divers locuteurs et origines linguistiques. Bien que l'adaptation réussisse globalement, des écarts significatifs persistent pour certaines variétés, révélant où les modèles actuels ne parviennent pas encore à égaler la flexibilité humaine. Nous publions nos invites et notre code sur GitHub.

English

Human listeners readily adjust to unfamiliar speakers and language varieties through exposure, but do these adaptation benefits extend to state-of-the-art spoken language models? We introduce a scalable framework that allows for in-context learning (ICL) in Phi-4 Multimodal using interleaved task prompts and audio-text pairs, and find that as few as 12 example utterances (~50 seconds) at inference time reduce word error rates by a relative 19.7% (1.2 pp.) on average across diverse English corpora. These improvements are most pronounced in low-resource varieties, when the context and target speaker match, and when more examples are provided--though scaling our procedure yields diminishing marginal returns to context length. Overall, we find that our novel ICL adaptation scheme (1) reveals a similar performance profile to human listeners, and (2) demonstrates consistent improvements to automatic speech recognition (ASR) robustness across diverse speakers and language backgrounds. While adaptation succeeds broadly, significant gaps remain for certain varieties, revealing where current models still fall short of human flexibility. We release our prompts and code on GitHub.

L'apprentissage en contexte améliore la reconnaissance vocale grâce à une adaptation humaine aux locuteurs et aux variétés linguistiques

In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties

papers.abstract

Support