ChatPaper.aiChatPaper

Progresser malgré les échecs : Amélioration de la correction d'erreurs génératives pour la reconnaissance automatique de la parole avec des données synthétiques et un renforcement de la récupération

Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

October 17, 2024
Auteurs: Sreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li
cs.AI

Résumé

La Correction d'Erreurs Générative (GEC) s'est imposée comme une méthode de post-traitement puissante pour améliorer les performances des systèmes de Reconnaissance Automatique de la Parole (ASR). Cependant, nous montrons que les modèles GEC ont du mal à généraliser au-delà des types spécifiques d'erreurs rencontrés lors de l'entraînement, limitant leur capacité à corriger de nouvelles erreurs non vues au moment du test, notamment dans des scénarios hors domaine (OOD). Ce phénomène est amplifié avec les entités nommées (NE), où, en plus d'un manque d'informations contextuelles ou de connaissances sur les NE, de nouvelles NE continuent d'apparaître. Pour résoudre ces problèmes, nous proposons DARAG (Correction d'Erreurs Générative Augmentée par les Données et la Récupération), une approche novatrice conçue pour améliorer la GEC pour l'ASR dans des scénarios en domaine (ID) et hors domaine (OOD). Nous enrichissons l'ensemble d'entraînement de GEC avec des données synthétiques générées en incitant des LLM et des modèles de texte-parole, simulant ainsi des erreurs supplémentaires à partir desquelles le modèle peut apprendre. Pour les scénarios OOD, nous simulons de manière similaire et de manière non supervisée des erreurs au moment du test à partir de nouveaux domaines. De plus, pour mieux gérer les entités nommées, nous introduisons une correction augmentée par la récupération en enrichissant l'entrée avec des entités récupérées à partir d'une base de données. Notre approche est simple, évolutive, et à la fois indépendante du domaine et de la langue. Nous menons des expériences sur plusieurs ensembles de données et paramètres, montrant que DARAG surpasse toutes nos références, atteignant des améliorations relatives de 8\% à 30\% du Taux d'Erreur de Mots en ID et de 10\% à 33\% en OOD.
English
Generative Error Correction (GEC) has emerged as a powerful post-processing method to enhance the performance of Automatic Speech Recognition (ASR) systems. However, we show that GEC models struggle to generalize beyond the specific types of errors encountered during training, limiting their ability to correct new, unseen errors at test time, particularly in out-of-domain (OOD) scenarios. This phenomenon amplifies with named entities (NEs), where, in addition to insufficient contextual information or knowledge about the NEs, novel NEs keep emerging. To address these issues, we propose DARAG (Data- and Retrieval-Augmented Generative Error Correction), a novel approach designed to improve GEC for ASR in in-domain (ID) and OOD scenarios. We augment the GEC training dataset with synthetic data generated by prompting LLMs and text-to-speech models, thereby simulating additional errors from which the model can learn. For OOD scenarios, we simulate test-time errors from new domains similarly and in an unsupervised fashion. Additionally, to better handle named entities, we introduce retrieval-augmented correction by augmenting the input with entities retrieved from a database. Our approach is simple, scalable, and both domain- and language-agnostic. We experiment on multiple datasets and settings, showing that DARAG outperforms all our baselines, achieving 8\% -- 30\% relative WER improvements in ID and 10\% -- 33\% improvements in OOD settings.

Summary

AI-Generated Summary

PDF102November 16, 2024