Injection de texte pour la prédiction de la capitalisation et des tours de parole dans les modèles de parole
Text Injection for Capitalization and Turn-Taking Prediction in Speech Models
August 14, 2023
Auteurs: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
cs.AI
Résumé
L'injection de texte pour la reconnaissance automatique de la parole (ASR), où des données textuelles non appariées sont utilisées pour compléter des données audio-texte appariées, a montré des améliorations prometteuses en termes de taux d'erreur sur les mots. Cette étude examine l'utilisation de l'injection de texte pour des tâches auxiliaires, qui sont les tâches non liées à l'ASR souvent effectuées par un modèle de bout en bout (E2E). Dans ce travail, nous utilisons l'entraînement conjoint de bout en bout et du modèle de langage interne (JEIT) comme algorithme d'injection de texte pour entraîner un modèle ASR qui exécute deux tâches auxiliaires. La première est la capitalisation, qui est une tâche de dénormalisation. La seconde est la prédiction de prise de parole, qui tente d'identifier si un utilisateur a terminé son tour de parole lors d'une interaction avec un assistant numérique. Nous présentons des résultats démontrant que notre méthode d'injection de texte améliore les performances de capitalisation pour les données de longue traîne et augmente le rappel de détection de prise de parole.
English
Text injection for automatic speech recognition (ASR), wherein unpaired
text-only data is used to supplement paired audio-text data, has shown
promising improvements for word error rate. This study examines the use of text
injection for auxiliary tasks, which are the non-ASR tasks often performed by
an E2E model. In this work, we use joint end-to-end and internal language model
training (JEIT) as our text injection algorithm to train an ASR model which
performs two auxiliary tasks. The first is capitalization, which is a
de-normalization task. The second is turn-taking prediction, which attempts to
identify whether a user has completed their conversation turn in a digital
assistant interaction. We show results demonstrating that our text injection
method boosts capitalization performance for long-tail data, and improves
turn-taking detection recall.