ChatPaper.aiChatPaper

Pseudo2Real: Taakrekenkunde voor Pseudo-Labelcorrectie in Automatische Spraakherkenning

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

October 9, 2025
Auteurs: Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee
cs.AI

Samenvatting

Robuste spraakherkenning (ASR) onder domeinverschuiving is cruciaal omdat systemen in de praktijk te maken krijgen met onbekende accenten en domeinen met beperkte gelabelde data. Hoewel pseudo-labeling een praktische oplossing biedt, introduceert het vaak systematische, accent-specifieke fouten die filtering niet kan verhelpen. Wij stellen de vraag: Hoe kunnen we deze terugkerende biases corrigeren zonder de beschikking over doel-grondwaarheden? We stellen een eenvoudige correctie in de parameterruimte voor: in een brondomein dat zowel echte als pseudo-gelabelde data bevat, worden twee ASR-modellen gefinetuned vanuit dezelfde initialisatie, één op grondwaarheid-labels en de andere op pseudo-labels, en hun gewichtsverschil vormt een correctievector die de biases van pseudo-labels vastlegt. Wanneer deze vector wordt toegepast op een pseudo-gelabeld doelmodel, verbetert dit de herkenning, wat resulteert in een relatieve vermindering van het Word Error Rate (WER) tot wel 35% op AfriSpeech-200 over tien Afrikaanse accenten met het Whisper tiny-model.
English
Robust ASR under domain shift is crucial because real-world systems encounter unseen accents and domains with limited labeled data. Although pseudo-labeling offers a practical workaround, it often introduces systematic, accent-specific errors that filtering fails to fix. We ask: How can we correct these recurring biases without target ground truth? We propose a simple parameter-space correction: in a source domain containing both real and pseudo-labeled data, two ASR models are fine-tuned from the same initialization, one on ground-truth labels and the other on pseudo-labels, and their weight difference forms a correction vector that captures pseudo-label biases. When applied to a pseudo-labeled target model, this vector enhances recognition, achieving up to a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten African accents with the Whisper tiny model.
PDF62October 13, 2025