Pseudo2Real: Taakrekenkunde voor Pseudo-Labelcorrectie in Automatische Spraakherkenning

Samenvatting

Robuste spraakherkenning (ASR) onder domeinverschuiving is cruciaal omdat systemen in de praktijk te maken krijgen met onbekende accenten en domeinen met beperkte gelabelde data. Hoewel pseudo-labeling een praktische oplossing biedt, introduceert het vaak systematische, accent-specifieke fouten die filtering niet kan verhelpen. Wij stellen de vraag: Hoe kunnen we deze terugkerende biases corrigeren zonder de beschikking over doel-grondwaarheden? We stellen een eenvoudige correctie in de parameterruimte voor: in een brondomein dat zowel echte als pseudo-gelabelde data bevat, worden twee ASR-modellen gefinetuned vanuit dezelfde initialisatie, één op grondwaarheid-labels en de andere op pseudo-labels, en hun gewichtsverschil vormt een correctievector die de biases van pseudo-labels vastlegt. Wanneer deze vector wordt toegepast op een pseudo-gelabeld doelmodel, verbetert dit de herkenning, wat resulteert in een relatieve vermindering van het Word Error Rate (WER) tot wel 35% op AfriSpeech-200 over tien Afrikaanse accenten met het Whisper tiny-model.

English

Robust ASR under domain shift is crucial because real-world systems encounter unseen accents and domains with limited labeled data. Although pseudo-labeling offers a practical workaround, it often introduces systematic, accent-specific errors that filtering fails to fix. We ask: How can we correct these recurring biases without target ground truth? We propose a simple parameter-space correction: in a source domain containing both real and pseudo-labeled data, two ASR models are fine-tuned from the same initialization, one on ground-truth labels and the other on pseudo-labels, and their weight difference forms a correction vector that captures pseudo-label biases. When applied to a pseudo-labeled target model, this vector enhances recognition, achieving up to a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten African accents with the Whisper tiny model.

Pseudo2Real: Taakrekenkunde voor Pseudo-Labelcorrectie in Automatische Spraakherkenning

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

Samenvatting

Support