ChatPaper.aiChatPaper

Injection de texte pour la prédiction de la capitalisation et des tours de parole dans les modèles de parole

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

August 14, 2023
Auteurs: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
cs.AI

Résumé

L'injection de texte pour la reconnaissance automatique de la parole (ASR), où des données textuelles non appariées sont utilisées pour compléter des données audio-texte appariées, a montré des améliorations prometteuses en termes de taux d'erreur sur les mots. Cette étude examine l'utilisation de l'injection de texte pour des tâches auxiliaires, qui sont les tâches non liées à l'ASR souvent effectuées par un modèle de bout en bout (E2E). Dans ce travail, nous utilisons l'entraînement conjoint de bout en bout et du modèle de langage interne (JEIT) comme algorithme d'injection de texte pour entraîner un modèle ASR qui exécute deux tâches auxiliaires. La première est la capitalisation, qui est une tâche de dénormalisation. La seconde est la prédiction de prise de parole, qui tente d'identifier si un utilisateur a terminé son tour de parole lors d'une interaction avec un assistant numérique. Nous présentons des résultats démontrant que notre méthode d'injection de texte améliore les performances de capitalisation pour les données de longue traîne et augmente le rappel de détection de prise de parole.
English
Text injection for automatic speech recognition (ASR), wherein unpaired text-only data is used to supplement paired audio-text data, has shown promising improvements for word error rate. This study examines the use of text injection for auxiliary tasks, which are the non-ASR tasks often performed by an E2E model. In this work, we use joint end-to-end and internal language model training (JEIT) as our text injection algorithm to train an ASR model which performs two auxiliary tasks. The first is capitalization, which is a de-normalization task. The second is turn-taking prediction, which attempts to identify whether a user has completed their conversation turn in a digital assistant interaction. We show results demonstrating that our text injection method boosts capitalization performance for long-tail data, and improves turn-taking detection recall.
PDF70December 15, 2024