Iniezione di Testo per la Predizione di Maiuscole e Turni di Conversazione nei Modelli di Elaborazione del Linguaggio
Text Injection for Capitalization and Turn-Taking Prediction in Speech Models
August 14, 2023
Autori: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
cs.AI
Abstract
L'iniezione di testo per il riconoscimento vocale automatico (ASR), in cui dati testuali non accoppiati vengono utilizzati per integrare dati audio-testo accoppiati, ha dimostrato miglioramenti promettenti nel tasso di errore sulle parole. Questo studio esamina l'uso dell'iniezione di testo per compiti ausiliari, che sono i compiti non legati all'ASR spesso eseguiti da un modello end-to-end (E2E). In questo lavoro, utilizziamo l'addestramento congiunto end-to-end e del modello linguistico interno (JEIT) come algoritmo di iniezione di testo per addestrare un modello ASR che esegue due compiti ausiliari. Il primo è la capitalizzazione, che è un compito di de-normalizzazione. Il secondo è la previsione dell'alternanza dei turni, che tenta di identificare se un utente ha completato il proprio turno di conversazione in un'interazione con un assistente digitale. Mostriamo risultati che dimostrano come il nostro metodo di iniezione di testo migliori le prestazioni di capitalizzazione per dati a coda lunga e aumenti il richiamo nel rilevamento dell'alternanza dei turni.
English
Text injection for automatic speech recognition (ASR), wherein unpaired
text-only data is used to supplement paired audio-text data, has shown
promising improvements for word error rate. This study examines the use of text
injection for auxiliary tasks, which are the non-ASR tasks often performed by
an E2E model. In this work, we use joint end-to-end and internal language model
training (JEIT) as our text injection algorithm to train an ASR model which
performs two auxiliary tasks. The first is capitalization, which is a
de-normalization task. The second is turn-taking prediction, which attempts to
identify whether a user has completed their conversation turn in a digital
assistant interaction. We show results demonstrating that our text injection
method boosts capitalization performance for long-tail data, and improves
turn-taking detection recall.