Pseudo2Real: Aritmética de Tarefas para Correção de Rótulos Pseudo em Reconhecimento Automático de Fala
Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition
October 9, 2025
Autores: Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee
cs.AI
Resumo
A robustez do ASR (Reconhecimento Automático de Fala) diante de mudanças de domínio é crucial, pois sistemas do mundo real encontram sotaques e domínios não vistos com dados rotulados limitados. Embora o pseudo-rotulamento ofereça uma solução prática, ele frequentemente introduz erros sistemáticos específicos de sotaque que a filtragem não consegue corrigir. Nós nos perguntamos: Como podemos corrigir esses vieses recorrentes sem a verdade fundamental do domínio de destino? Propomos uma correção simples no espaço de parâmetros: em um domínio de origem contendo dados reais e pseudo-rotulados, dois modelos de ASR são ajustados a partir da mesma inicialização, um com rótulos verdadeiros e outro com pseudo-rótulos, e a diferença de seus pesos forma um vetor de correção que captura os vieses dos pseudo-rótulos. Quando aplicado a um modelo de destino pseudo-rotulado, esse vetor melhora o reconhecimento, alcançando uma redução relativa de até 35% na Taxa de Erro de Palavras (WER) no AfriSpeech-200 em dez sotaques africanos com o modelo Whisper tiny.
English
Robust ASR under domain shift is crucial because real-world systems encounter
unseen accents and domains with limited labeled data. Although pseudo-labeling
offers a practical workaround, it often introduces systematic, accent-specific
errors that filtering fails to fix. We ask: How can we correct these recurring
biases without target ground truth? We propose a simple parameter-space
correction: in a source domain containing both real and pseudo-labeled data,
two ASR models are fine-tuned from the same initialization, one on ground-truth
labels and the other on pseudo-labels, and their weight difference forms a
correction vector that captures pseudo-label biases. When applied to a
pseudo-labeled target model, this vector enhances recognition, achieving up to
a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten
African accents with the Whisper tiny model.