ChatPaper.aiChatPaper

Avanzando a través del fracaso: Mejorando la corrección de errores generativa para ASR con datos sintéticos y aumento de recuperación

Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

October 17, 2024
Autores: Sreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li
cs.AI

Resumen

La Corrección de Errores Generativa (GEC) ha surgido como un método potente de postprocesamiento para mejorar el rendimiento de los sistemas de Reconocimiento Automático del Habla (ASR). Sin embargo, demostramos que los modelos de GEC tienen dificultades para generalizar más allá de los tipos específicos de errores encontrados durante el entrenamiento, lo que limita su capacidad para corregir nuevos errores no vistos en el momento de la prueba, especialmente en escenarios fuera del dominio (OOD). Este fenómeno se amplifica con las entidades nombradas (NEs), donde, además de la información contextual insuficiente o el conocimiento sobre las NEs, siguen surgiendo nuevas NEs. Para abordar estos problemas, proponemos DARAG (Corrección de Errores Generativa Aumentada con Datos y Recuperación), un enfoque novedoso diseñado para mejorar la GEC para ASR en escenarios dentro del dominio (ID) y fuera del dominio (OOD). Aumentamos el conjunto de datos de entrenamiento de GEC con datos sintéticos generados mediante la solicitud de modelos de LLM y de texto a voz, simulando así errores adicionales a partir de los cuales el modelo puede aprender. Para escenarios OOD, simulamos errores en el momento de la prueba de nuevos dominios de manera similar y de forma no supervisada. Además, para manejar mejor las entidades nombradas, introducimos la corrección aumentada con recuperación al agregar al input entidades recuperadas de una base de datos. Nuestro enfoque es simple, escalable y tanto agnóstico al dominio como al idioma. Experimentamos en múltiples conjuntos de datos y configuraciones, demostrando que DARAG supera a todos nuestros puntos de referencia, logrando mejoras de 8\% a 30\% en WER relativo en entornos ID y mejoras de 10\% a 33\% en entornos OOD.
English
Generative Error Correction (GEC) has emerged as a powerful post-processing method to enhance the performance of Automatic Speech Recognition (ASR) systems. However, we show that GEC models struggle to generalize beyond the specific types of errors encountered during training, limiting their ability to correct new, unseen errors at test time, particularly in out-of-domain (OOD) scenarios. This phenomenon amplifies with named entities (NEs), where, in addition to insufficient contextual information or knowledge about the NEs, novel NEs keep emerging. To address these issues, we propose DARAG (Data- and Retrieval-Augmented Generative Error Correction), a novel approach designed to improve GEC for ASR in in-domain (ID) and OOD scenarios. We augment the GEC training dataset with synthetic data generated by prompting LLMs and text-to-speech models, thereby simulating additional errors from which the model can learn. For OOD scenarios, we simulate test-time errors from new domains similarly and in an unsupervised fashion. Additionally, to better handle named entities, we introduce retrieval-augmented correction by augmenting the input with entities retrieved from a database. Our approach is simple, scalable, and both domain- and language-agnostic. We experiment on multiple datasets and settings, showing that DARAG outperforms all our baselines, achieving 8\% -- 30\% relative WER improvements in ID and 10\% -- 33\% improvements in OOD settings.

Summary

AI-Generated Summary

PDF102November 16, 2024