Tekstinjectie voor hoofdlettergebruik en beurtwisselingsvoorspelling in spraakmodellen
Text Injection for Capitalization and Turn-Taking Prediction in Speech Models
August 14, 2023
Auteurs: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
cs.AI
Samenvatting
Tekstinjectie voor automatische spraakherkenning (ASR), waarbij ongepaarde tekstgegevens worden gebruikt om gepaarde audio-tekstgegevens aan te vullen, heeft veelbelovende verbeteringen laten zien voor de woordfoutratio. Deze studie onderzoekt het gebruik van tekstinjectie voor hulptaken, dit zijn de niet-ASR-taken die vaak worden uitgevoerd door een end-to-end (E2E) model. In dit werk gebruiken we gezamenlijke end-to-end en interne taalmodeltraining (JEIT) als ons tekstinjectie-algoritme om een ASR-model te trainen dat twee hulptaken uitvoert. De eerste is hoofdlettergebruik, wat een denormalisatietaak is. De tweede is het voorspellen van beurtwisselingen, waarbij wordt geprobeerd te identificeren of een gebruiker zijn conversatiebeurt heeft voltooid in een interactie met een digitale assistent. We laten resultaten zien die aantonen dat onze tekstinjectiemethode de prestaties van hoofdlettergebruik verbetert voor long-tail gegevens, en de recall voor het detecteren van beurtwisselingen verhoogt.
English
Text injection for automatic speech recognition (ASR), wherein unpaired
text-only data is used to supplement paired audio-text data, has shown
promising improvements for word error rate. This study examines the use of text
injection for auxiliary tasks, which are the non-ASR tasks often performed by
an E2E model. In this work, we use joint end-to-end and internal language model
training (JEIT) as our text injection algorithm to train an ASR model which
performs two auxiliary tasks. The first is capitalization, which is a
de-normalization task. The second is turn-taking prediction, which attempts to
identify whether a user has completed their conversation turn in a digital
assistant interaction. We show results demonstrating that our text injection
method boosts capitalization performance for long-tail data, and improves
turn-taking detection recall.