Fehler nach vorne: Verbesserung der generativen Fehlerkorrektur für ASR mit synthetischen Daten und Abrufverstärkung
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation
October 17, 2024
Autoren: Sreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li
cs.AI
Zusammenfassung
Die Generative Fehlerkorrektur (GEC) hat sich als leistungsstarke Nachbearbeitungsmethode zur Verbesserung der Leistung von Automatischen Spracherkennungssystemen (ASR) etabliert. Allerdings zeigen wir, dass GEC-Modelle Schwierigkeiten haben, über die spezifischen während des Trainings aufgetretenen Fehlerarten hinaus zu generalisieren, was ihre Fähigkeit einschränkt, neue, unerkannte Fehler zur Testzeit zu korrigieren, insbesondere in Out-of-Domain (OOD)-Szenarien. Dieses Phänomen verstärkt sich bei benannten Entitäten (NEs), bei denen neben unzureichenden Kontextinformationen oder Kenntnissen über die NEs ständig neue NEs auftauchen. Um diese Probleme anzugehen, schlagen wir DARAG (Daten- und Abruf-erweiterte Generative Fehlerkorrektur) vor, einen neuartigen Ansatz, der darauf abzielt, die GEC für ASR in In-Domain (ID) und OOD-Szenarien zu verbessern. Wir erweitern den GEC-Trainingsdatensatz mit synthetischen Daten, die durch Aufforderung von LLMs und Text-in-Sprache-Modellen generiert wurden, um zusätzliche Fehler zu simulieren, aus denen das Modell lernen kann. Für OOD-Szenarien simulieren wir Testzeitfehler aus neuen Domänen ähnlich und auf unsupervised Weise. Zusätzlich führen wir zur besseren Behandlung von benannten Entitäten eine abruf-erweiterte Korrektur ein, indem wir die Eingabe mit aus einer Datenbank abgerufenen Entitäten erweitern. Unser Ansatz ist einfach, skalierbar und sowohl domänen- als auch sprachunabhängig. Wir experimentieren mit mehreren Datensätzen und Einstellungen und zeigen, dass DARAG alle unsere Baselines übertrifft, mit relativen WER-Verbesserungen von 8\% - 30\% in ID und 10\% - 33\% in OOD-Einstellungen.
English
Generative Error Correction (GEC) has emerged as a powerful post-processing
method to enhance the performance of Automatic Speech Recognition (ASR)
systems. However, we show that GEC models struggle to generalize beyond the
specific types of errors encountered during training, limiting their ability to
correct new, unseen errors at test time, particularly in out-of-domain (OOD)
scenarios. This phenomenon amplifies with named entities (NEs), where, in
addition to insufficient contextual information or knowledge about the NEs,
novel NEs keep emerging. To address these issues, we propose DARAG (Data- and
Retrieval-Augmented Generative Error Correction), a novel approach designed to
improve GEC for ASR in in-domain (ID) and OOD scenarios. We augment the GEC
training dataset with synthetic data generated by prompting LLMs and
text-to-speech models, thereby simulating additional errors from which the
model can learn. For OOD scenarios, we simulate test-time errors from new
domains similarly and in an unsupervised fashion. Additionally, to better
handle named entities, we introduce retrieval-augmented correction by
augmenting the input with entities retrieved from a database. Our approach is
simple, scalable, and both domain- and language-agnostic. We experiment on
multiple datasets and settings, showing that DARAG outperforms all our
baselines, achieving 8\% -- 30\% relative WER improvements in ID and 10\% --
33\% improvements in OOD settings.Summary
AI-Generated Summary