Progresser malgré les échecs : Amélioration de la correction d'erreurs génératives pour la reconnaissance automatique de la parole avec des données synthétiques et un renforcement de la récupération
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation
October 17, 2024
Auteurs: Sreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li
cs.AI
Résumé
La Correction d'Erreurs Générative (GEC) s'est imposée comme une méthode de post-traitement puissante pour améliorer les performances des systèmes de Reconnaissance Automatique de la Parole (ASR). Cependant, nous montrons que les modèles GEC ont du mal à généraliser au-delà des types spécifiques d'erreurs rencontrés lors de l'entraînement, limitant leur capacité à corriger de nouvelles erreurs non vues au moment du test, notamment dans des scénarios hors domaine (OOD). Ce phénomène est amplifié avec les entités nommées (NE), où, en plus d'un manque d'informations contextuelles ou de connaissances sur les NE, de nouvelles NE continuent d'apparaître. Pour résoudre ces problèmes, nous proposons DARAG (Correction d'Erreurs Générative Augmentée par les Données et la Récupération), une approche novatrice conçue pour améliorer la GEC pour l'ASR dans des scénarios en domaine (ID) et hors domaine (OOD). Nous enrichissons l'ensemble d'entraînement de GEC avec des données synthétiques générées en incitant des LLM et des modèles de texte-parole, simulant ainsi des erreurs supplémentaires à partir desquelles le modèle peut apprendre. Pour les scénarios OOD, nous simulons de manière similaire et de manière non supervisée des erreurs au moment du test à partir de nouveaux domaines. De plus, pour mieux gérer les entités nommées, nous introduisons une correction augmentée par la récupération en enrichissant l'entrée avec des entités récupérées à partir d'une base de données. Notre approche est simple, évolutive, et à la fois indépendante du domaine et de la langue. Nous menons des expériences sur plusieurs ensembles de données et paramètres, montrant que DARAG surpasse toutes nos références, atteignant des améliorations relatives de 8\% à 30\% du Taux d'Erreur de Mots en ID et de 10\% à 33\% en OOD.
English
Generative Error Correction (GEC) has emerged as a powerful post-processing
method to enhance the performance of Automatic Speech Recognition (ASR)
systems. However, we show that GEC models struggle to generalize beyond the
specific types of errors encountered during training, limiting their ability to
correct new, unseen errors at test time, particularly in out-of-domain (OOD)
scenarios. This phenomenon amplifies with named entities (NEs), where, in
addition to insufficient contextual information or knowledge about the NEs,
novel NEs keep emerging. To address these issues, we propose DARAG (Data- and
Retrieval-Augmented Generative Error Correction), a novel approach designed to
improve GEC for ASR in in-domain (ID) and OOD scenarios. We augment the GEC
training dataset with synthetic data generated by prompting LLMs and
text-to-speech models, thereby simulating additional errors from which the
model can learn. For OOD scenarios, we simulate test-time errors from new
domains similarly and in an unsupervised fashion. Additionally, to better
handle named entities, we introduce retrieval-augmented correction by
augmenting the input with entities retrieved from a database. Our approach is
simple, scalable, and both domain- and language-agnostic. We experiment on
multiple datasets and settings, showing that DARAG outperforms all our
baselines, achieving 8\% -- 30\% relative WER improvements in ID and 10\% --
33\% improvements in OOD settings.Summary
AI-Generated Summary