Pseudo2Real: Aufgabenarithmetik zur Korrektur von Pseudo-Labels in der automatischen Spracherkennung
Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition
October 9, 2025
papers.authors: Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee
cs.AI
papers.abstract
Robuste automatische Spracherkennung (ASR) bei Domänenverschiebung ist entscheidend, da reale Systeme auf unbekannte Akzente und Domänen mit begrenzten annotierten Daten stoßen. Obwohl Pseudo-Labeling eine praktische Lösung bietet, führt es oft zu systematischen, akzentspezifischen Fehlern, die durch Filterung nicht behoben werden können. Wir stellen die Frage: Wie können wir diese wiederkehrenden Verzerrungen ohne Ziel-Ground-Truth korrigieren? Wir schlagen eine einfache Korrektur im Parameterraum vor: In einer Quellendomäne, die sowohl echte als auch pseudo-labelierte Daten enthält, werden zwei ASR-Modelle von derselben Initialisierung aus feinabgestimmt, eines auf Ground-Truth-Labels und das andere auf Pseudo-Labels, und ihre Gewichtsdifferenz bildet einen Korrekturvektor, der die Verzerrungen der Pseudo-Labels erfasst. Wenn dieser Vektor auf ein pseudo-labeliertes Zielmodell angewendet wird, verbessert er die Erkennung und erreicht eine relative Reduktion der Wortfehlerrate (WER) von bis zu 35 % bei AfriSpeech-200 über zehn afrikanische Akzente mit dem Whisper-Tiny-Modell.
English
Robust ASR under domain shift is crucial because real-world systems encounter
unseen accents and domains with limited labeled data. Although pseudo-labeling
offers a practical workaround, it often introduces systematic, accent-specific
errors that filtering fails to fix. We ask: How can we correct these recurring
biases without target ground truth? We propose a simple parameter-space
correction: in a source domain containing both real and pseudo-labeled data,
two ASR models are fine-tuned from the same initialization, one on ground-truth
labels and the other on pseudo-labels, and their weight difference forms a
correction vector that captures pseudo-label biases. When applied to a
pseudo-labeled target model, this vector enhances recognition, achieving up to
a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten
African accents with the Whisper tiny model.