Pseudo2Real: Aritmetica dei Task per la Correzione delle Pseudo-Etichette nel Riconoscimento Automatico del Parlato

Abstract

La robustezza del riconoscimento vocale automatico (ASR) in caso di cambiamenti di dominio è cruciale, poiché i sistemi nel mondo reale si trovano ad affrontare accenti e domini non visti, con dati etichettati limitati. Sebbene l'etichettatura pseudo-supervisionata offra una soluzione pratica, spesso introduce errori sistematici specifici per l'accento che il filtraggio non riesce a correggere. Ci chiediamo: come possiamo correggere questi bias ricorrenti senza avere a disposizione la verità di riferimento del target? Proponiamo una semplice correzione nello spazio dei parametri: in un dominio sorgente contenente sia dati reali che pseudo-etichettati, due modelli ASR vengono affinati partendo dalla stessa inizializzazione, uno utilizzando etichette di verità di riferimento e l'altro utilizzando pseudo-etichette, e la differenza dei loro pesi forma un vettore di correzione che cattura i bias delle pseudo-etichette. Quando applicato a un modello target pseudo-etichettato, questo vettore migliora il riconoscimento, ottenendo una riduzione relativa del tasso di errore sulle parole (WER) fino al 35% su AfriSpeech-200 in dieci accenti africani con il modello Whisper tiny.

English

Robust ASR under domain shift is crucial because real-world systems encounter unseen accents and domains with limited labeled data. Although pseudo-labeling offers a practical workaround, it often introduces systematic, accent-specific errors that filtering fails to fix. We ask: How can we correct these recurring biases without target ground truth? We propose a simple parameter-space correction: in a source domain containing both real and pseudo-labeled data, two ASR models are fine-tuned from the same initialization, one on ground-truth labels and the other on pseudo-labels, and their weight difference forms a correction vector that captures pseudo-label biases. When applied to a pseudo-labeled target model, this vector enhances recognition, achieving up to a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten African accents with the Whisper tiny model.

Pseudo2Real: Aritmetica dei Task per la Correzione delle Pseudo-Etichette nel Riconoscimento Automatico del Parlato

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

Abstract

Support