Pseudo2Real: Aritmética de Tareas para la Corrección de Pseudoetiquetas en el Reconocimiento Automático del Habla
Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition
October 9, 2025
Autores: Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee
cs.AI
Resumen
La robustez del reconocimiento automático del habla (ASR, por sus siglas en inglés) frente a cambios de dominio es crucial, ya que los sistemas del mundo real se enfrentan a acentos y dominios no vistos con datos etiquetados limitados. Aunque el pseudoetiquetado ofrece una solución práctica, a menudo introduce errores sistemáticos específicos del acento que el filtrado no logra corregir. Nos preguntamos: ¿Cómo podemos corregir estos sesgos recurrentes sin disponer de la verdad de campo del dominio objetivo? Proponemos una corrección simple en el espacio de parámetros: en un dominio fuente que contiene tanto datos reales como pseudoetiquetados, se ajustan dos modelos de ASR a partir de la misma inicialización, uno con etiquetas de verdad de campo y otro con pseudoetiquetas, y la diferencia de sus pesos forma un vector de corrección que captura los sesgos de las pseudoetiquetas. Cuando este vector se aplica a un modelo objetivo pseudoetiquetado, mejora el reconocimiento, logrando una reducción relativa de hasta un 35% en la Tasa de Error de Palabras (WER, por sus siglas en inglés) en AfriSpeech-200 a través de diez acentos africanos utilizando el modelo pequeño de Whisper.
English
Robust ASR under domain shift is crucial because real-world systems encounter
unseen accents and domains with limited labeled data. Although pseudo-labeling
offers a practical workaround, it often introduces systematic, accent-specific
errors that filtering fails to fix. We ask: How can we correct these recurring
biases without target ground truth? We propose a simple parameter-space
correction: in a source domain containing both real and pseudo-labeled data,
two ASR models are fine-tuned from the same initialization, one on ground-truth
labels and the other on pseudo-labels, and their weight difference forms a
correction vector that captures pseudo-label biases. When applied to a
pseudo-labeled target model, this vector enhances recognition, achieving up to
a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten
African accents with the Whisper tiny model.