ChatPaper.aiChatPaper

Pseudo2Real: Aufgabenarithmetik zur Korrektur von Pseudo-Labels in der automatischen Spracherkennung

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

October 9, 2025
papers.authors: Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee
cs.AI

papers.abstract

Robuste automatische Spracherkennung (ASR) bei Domänenverschiebung ist entscheidend, da reale Systeme auf unbekannte Akzente und Domänen mit begrenzten annotierten Daten stoßen. Obwohl Pseudo-Labeling eine praktische Lösung bietet, führt es oft zu systematischen, akzentspezifischen Fehlern, die durch Filterung nicht behoben werden können. Wir stellen die Frage: Wie können wir diese wiederkehrenden Verzerrungen ohne Ziel-Ground-Truth korrigieren? Wir schlagen eine einfache Korrektur im Parameterraum vor: In einer Quellendomäne, die sowohl echte als auch pseudo-labelierte Daten enthält, werden zwei ASR-Modelle von derselben Initialisierung aus feinabgestimmt, eines auf Ground-Truth-Labels und das andere auf Pseudo-Labels, und ihre Gewichtsdifferenz bildet einen Korrekturvektor, der die Verzerrungen der Pseudo-Labels erfasst. Wenn dieser Vektor auf ein pseudo-labeliertes Zielmodell angewendet wird, verbessert er die Erkennung und erreicht eine relative Reduktion der Wortfehlerrate (WER) von bis zu 35 % bei AfriSpeech-200 über zehn afrikanische Akzente mit dem Whisper-Tiny-Modell.
English
Robust ASR under domain shift is crucial because real-world systems encounter unseen accents and domains with limited labeled data. Although pseudo-labeling offers a practical workaround, it often introduces systematic, accent-specific errors that filtering fails to fix. We ask: How can we correct these recurring biases without target ground truth? We propose a simple parameter-space correction: in a source domain containing both real and pseudo-labeled data, two ASR models are fine-tuned from the same initialization, one on ground-truth labels and the other on pseudo-labels, and their weight difference forms a correction vector that captures pseudo-label biases. When applied to a pseudo-labeled target model, this vector enhances recognition, achieving up to a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten African accents with the Whisper tiny model.
PDF62October 13, 2025