Pseudo2Real: Aritmetica dei Task per la Correzione delle Pseudo-Etichette nel Riconoscimento Automatico del Parlato
Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition
October 9, 2025
Autori: Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee
cs.AI
Abstract
La robustezza del riconoscimento vocale automatico (ASR) in caso di cambiamenti di dominio è cruciale, poiché i sistemi nel mondo reale si trovano ad affrontare accenti e domini non visti, con dati etichettati limitati. Sebbene l'etichettatura pseudo-supervisionata offra una soluzione pratica, spesso introduce errori sistematici specifici per l'accento che il filtraggio non riesce a correggere. Ci chiediamo: come possiamo correggere questi bias ricorrenti senza avere a disposizione la verità di riferimento del target? Proponiamo una semplice correzione nello spazio dei parametri: in un dominio sorgente contenente sia dati reali che pseudo-etichettati, due modelli ASR vengono affinati partendo dalla stessa inizializzazione, uno utilizzando etichette di verità di riferimento e l'altro utilizzando pseudo-etichette, e la differenza dei loro pesi forma un vettore di correzione che cattura i bias delle pseudo-etichette. Quando applicato a un modello target pseudo-etichettato, questo vettore migliora il riconoscimento, ottenendo una riduzione relativa del tasso di errore sulle parole (WER) fino al 35% su AfriSpeech-200 in dieci accenti africani con il modello Whisper tiny.
English
Robust ASR under domain shift is crucial because real-world systems encounter
unseen accents and domains with limited labeled data. Although pseudo-labeling
offers a practical workaround, it often introduces systematic, accent-specific
errors that filtering fails to fix. We ask: How can we correct these recurring
biases without target ground truth? We propose a simple parameter-space
correction: in a source domain containing both real and pseudo-labeled data,
two ASR models are fine-tuned from the same initialization, one on ground-truth
labels and the other on pseudo-labels, and their weight difference forms a
correction vector that captures pseudo-label biases. When applied to a
pseudo-labeled target model, this vector enhances recognition, achieving up to
a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten
African accents with the Whisper tiny model.