Pseudo2Real: Aritmética de Tareas para la Corrección de Pseudoetiquetas en el Reconocimiento Automático del Habla

Resumen

La robustez del reconocimiento automático del habla (ASR, por sus siglas en inglés) frente a cambios de dominio es crucial, ya que los sistemas del mundo real se enfrentan a acentos y dominios no vistos con datos etiquetados limitados. Aunque el pseudoetiquetado ofrece una solución práctica, a menudo introduce errores sistemáticos específicos del acento que el filtrado no logra corregir. Nos preguntamos: ¿Cómo podemos corregir estos sesgos recurrentes sin disponer de la verdad de campo del dominio objetivo? Proponemos una corrección simple en el espacio de parámetros: en un dominio fuente que contiene tanto datos reales como pseudoetiquetados, se ajustan dos modelos de ASR a partir de la misma inicialización, uno con etiquetas de verdad de campo y otro con pseudoetiquetas, y la diferencia de sus pesos forma un vector de corrección que captura los sesgos de las pseudoetiquetas. Cuando este vector se aplica a un modelo objetivo pseudoetiquetado, mejora el reconocimiento, logrando una reducción relativa de hasta un 35% en la Tasa de Error de Palabras (WER, por sus siglas en inglés) en AfriSpeech-200 a través de diez acentos africanos utilizando el modelo pequeño de Whisper.

English

Robust ASR under domain shift is crucial because real-world systems encounter unseen accents and domains with limited labeled data. Although pseudo-labeling offers a practical workaround, it often introduces systematic, accent-specific errors that filtering fails to fix. We ask: How can we correct these recurring biases without target ground truth? We propose a simple parameter-space correction: in a source domain containing both real and pseudo-labeled data, two ASR models are fine-tuned from the same initialization, one on ground-truth labels and the other on pseudo-labels, and their weight difference forms a correction vector that captures pseudo-label biases. When applied to a pseudo-labeled target model, this vector enhances recognition, achieving up to a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten African accents with the Whisper tiny model.

Pseudo2Real: Aritmética de Tareas para la Corrección de Pseudoetiquetas en el Reconocimiento Automático del Habla

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

Resumen

Support