ChatPaper.aiChatPaper

In-Context Learning Verbetert Spraakherkenning Door Mensachtige Aanpassing aan Sprekers en Taalvarianten

In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties

May 20, 2025
Auteurs: Nathan Roll, Calbert Graham, Yuka Tatsumi, Kim Tien Nguyen, Meghan Sumner, Dan Jurafsky
cs.AI

Samenvatting

Menselijke luisteraars passen zich gemakkelijk aan aan onbekende sprekers en taalvariëteiten door blootstelling, maar strekken deze aanpassingsvoordelen zich ook uit naar state-of-the-art gesproken taalmodellen? We introduceren een schaalbaar raamwerk dat in-context learning (ICL) mogelijk maakt in Phi-4 Multimodal door middel van afgewisselde taakprompts en audio-tekstparen, en ontdekken dat slechts 12 voorbeelduitingen (~50 seconden) tijdens inferentie de woordfoutpercentages met een relatief 19,7% (1,2 pp.) verminderen gemiddeld over diverse Engelse corpora. Deze verbeteringen zijn het meest uitgesproken in laag-resource variëteiten, wanneer de context en de doelspreker overeenkomen, en wanneer meer voorbeelden worden gegeven—hoewel het schalen van onze procedure afnemende marginale opbrengsten oplevert voor de contextlengte. Over het algemeen vinden we dat ons nieuwe ICL-aanpassingsschema (1) een vergelijkbaar prestatieprofiel vertoont als menselijke luisteraars, en (2) consistente verbeteringen aantoont in de robuustheid van automatische spraakherkenning (ASR) over diverse sprekers en taalachtergronden. Hoewel de aanpassing breed succesvol is, blijven er aanzienlijke hiaten bestaan voor bepaalde variëteiten, wat onthult waar huidige modellen nog steeds tekortschieten in vergelijking met menselijke flexibiliteit. We publiceren onze prompts en code op GitHub.
English
Human listeners readily adjust to unfamiliar speakers and language varieties through exposure, but do these adaptation benefits extend to state-of-the-art spoken language models? We introduce a scalable framework that allows for in-context learning (ICL) in Phi-4 Multimodal using interleaved task prompts and audio-text pairs, and find that as few as 12 example utterances (~50 seconds) at inference time reduce word error rates by a relative 19.7% (1.2 pp.) on average across diverse English corpora. These improvements are most pronounced in low-resource varieties, when the context and target speaker match, and when more examples are provided--though scaling our procedure yields diminishing marginal returns to context length. Overall, we find that our novel ICL adaptation scheme (1) reveals a similar performance profile to human listeners, and (2) demonstrates consistent improvements to automatic speech recognition (ASR) robustness across diverse speakers and language backgrounds. While adaptation succeeds broadly, significant gaps remain for certain varieties, revealing where current models still fall short of human flexibility. We release our prompts and code on GitHub.
PDF22May 23, 2025