Pseudo2Real : Arithmétique des tâches pour la correction des pseudo-étiquettes dans la reconnaissance automatique de la parole
Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition
October 9, 2025
papers.authors: Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee
cs.AI
papers.abstract
La robustesse de la reconnaissance automatique de la parole (ASR) face aux changements de domaine est cruciale, car les systèmes réels rencontrent des accents et des domaines inédits avec des données annotées limitées. Bien que l'étiquetage pseudo-supervisé offre une solution pratique, il introduit souvent des erreurs systématiques spécifiques aux accents que le filtrage ne parvient pas à corriger. Nous posons la question suivante : comment corriger ces biais récurrents sans vérité terrain cible ? Nous proposons une correction simple dans l'espace des paramètres : dans un domaine source contenant à la fois des données réelles et pseudo-étiquetées, deux modèles ASR sont affinés à partir de la même initialisation, l'un sur des étiquettes de vérité terrain et l'autre sur des pseudo-étiquettes, et la différence de leurs poids forme un vecteur de correction qui capture les biais des pseudo-étiquettes. Lorsqu'il est appliqué à un modèle cible pseudo-étiqueté, ce vecteur améliore la reconnaissance, permettant une réduction relative du taux d'erreur sur les mots (WER) allant jusqu'à 35 % sur AfriSpeech-200 pour dix accents africains avec le modèle Whisper tiny.
English
Robust ASR under domain shift is crucial because real-world systems encounter
unseen accents and domains with limited labeled data. Although pseudo-labeling
offers a practical workaround, it often introduces systematic, accent-specific
errors that filtering fails to fix. We ask: How can we correct these recurring
biases without target ground truth? We propose a simple parameter-space
correction: in a source domain containing both real and pseudo-labeled data,
two ASR models are fine-tuned from the same initialization, one on ground-truth
labels and the other on pseudo-labels, and their weight difference forms a
correction vector that captures pseudo-label biases. When applied to a
pseudo-labeled target model, this vector enhances recognition, achieving up to
a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten
African accents with the Whisper tiny model.