Avanzando a través del fracaso: Mejorando la corrección de errores generativa para ASR con datos sintéticos y aumento de recuperación
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation
October 17, 2024
Autores: Sreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li
cs.AI
Resumen
La Corrección de Errores Generativa (GEC) ha surgido como un método potente de postprocesamiento para mejorar el rendimiento de los sistemas de Reconocimiento Automático del Habla (ASR). Sin embargo, demostramos que los modelos de GEC tienen dificultades para generalizar más allá de los tipos específicos de errores encontrados durante el entrenamiento, lo que limita su capacidad para corregir nuevos errores no vistos en el momento de la prueba, especialmente en escenarios fuera del dominio (OOD). Este fenómeno se amplifica con las entidades nombradas (NEs), donde, además de la información contextual insuficiente o el conocimiento sobre las NEs, siguen surgiendo nuevas NEs. Para abordar estos problemas, proponemos DARAG (Corrección de Errores Generativa Aumentada con Datos y Recuperación), un enfoque novedoso diseñado para mejorar la GEC para ASR en escenarios dentro del dominio (ID) y fuera del dominio (OOD). Aumentamos el conjunto de datos de entrenamiento de GEC con datos sintéticos generados mediante la solicitud de modelos de LLM y de texto a voz, simulando así errores adicionales a partir de los cuales el modelo puede aprender. Para escenarios OOD, simulamos errores en el momento de la prueba de nuevos dominios de manera similar y de forma no supervisada. Además, para manejar mejor las entidades nombradas, introducimos la corrección aumentada con recuperación al agregar al input entidades recuperadas de una base de datos. Nuestro enfoque es simple, escalable y tanto agnóstico al dominio como al idioma. Experimentamos en múltiples conjuntos de datos y configuraciones, demostrando que DARAG supera a todos nuestros puntos de referencia, logrando mejoras de 8\% a 30\% en WER relativo en entornos ID y mejoras de 10\% a 33\% en entornos OOD.
English
Generative Error Correction (GEC) has emerged as a powerful post-processing
method to enhance the performance of Automatic Speech Recognition (ASR)
systems. However, we show that GEC models struggle to generalize beyond the
specific types of errors encountered during training, limiting their ability to
correct new, unseen errors at test time, particularly in out-of-domain (OOD)
scenarios. This phenomenon amplifies with named entities (NEs), where, in
addition to insufficient contextual information or knowledge about the NEs,
novel NEs keep emerging. To address these issues, we propose DARAG (Data- and
Retrieval-Augmented Generative Error Correction), a novel approach designed to
improve GEC for ASR in in-domain (ID) and OOD scenarios. We augment the GEC
training dataset with synthetic data generated by prompting LLMs and
text-to-speech models, thereby simulating additional errors from which the
model can learn. For OOD scenarios, we simulate test-time errors from new
domains similarly and in an unsupervised fashion. Additionally, to better
handle named entities, we introduce retrieval-augmented correction by
augmenting the input with entities retrieved from a database. Our approach is
simple, scalable, and both domain- and language-agnostic. We experiment on
multiple datasets and settings, showing that DARAG outperforms all our
baselines, achieving 8\% -- 30\% relative WER improvements in ID and 10\% --
33\% improvements in OOD settings.Summary
AI-Generated Summary