ChatPaper.aiChatPaper

Texteinfügung zur Großschreibung und Vorhersage von Sprecherwechseln in Sprachmodellen

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

August 14, 2023
Autoren: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
cs.AI

Zusammenfassung

Texteinspritzung für die automatische Spracherkennung (ASR), bei der ungepaarte textbasierte Daten verwendet werden, um gepaarte Audio-Text-Daten zu ergänzen, hat vielversprechende Verbesserungen bei der Wortfehlerrate gezeigt. Diese Studie untersucht die Verwendung von Texteinspritzung für Hilfsaufgaben, die die nicht-ASR-bezogenen Aufgaben sind, die oft von einem End-to-End-Modell (E2E) ausgeführt werden. In dieser Arbeit verwenden wir das gemeinsame End-to-End- und interne Sprachmodell-Training (JEIT) als unseren Texteinspritzungsalgorithmus, um ein ASR-Modell zu trainieren, das zwei Hilfsaufgaben ausführt. Die erste ist die Großschreibung, eine Denormalisierungsaufgabe. Die zweite ist die Vorhersage von Sprecherwechseln, bei der versucht wird, festzustellen, ob ein Benutzer seinen Gesprächsbeitrag in einer Interaktion mit einem digitalen Assistenten abgeschlossen hat. Wir zeigen Ergebnisse, die demonstrieren, dass unsere Texteinspritzungsmethode die Leistung bei der Großschreibung für langschwänzige Daten verbessert und die Erkennungsrate von Sprecherwechseln steigert.
English
Text injection for automatic speech recognition (ASR), wherein unpaired text-only data is used to supplement paired audio-text data, has shown promising improvements for word error rate. This study examines the use of text injection for auxiliary tasks, which are the non-ASR tasks often performed by an E2E model. In this work, we use joint end-to-end and internal language model training (JEIT) as our text injection algorithm to train an ASR model which performs two auxiliary tasks. The first is capitalization, which is a de-normalization task. The second is turn-taking prediction, which attempts to identify whether a user has completed their conversation turn in a digital assistant interaction. We show results demonstrating that our text injection method boosts capitalization performance for long-tail data, and improves turn-taking detection recall.
PDF70December 15, 2024