ChatPaper.aiChatPaper

Inyección de Texto para la Predicción de Mayúsculas y Toma de Turnos en Modelos de Habla

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

August 14, 2023
Autores: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
cs.AI

Resumen

La inyección de texto para el reconocimiento automático del habla (ASR, por sus siglas en inglés), en la que se utilizan datos de solo texto no emparejados para complementar los datos de audio-texto emparejados, ha mostrado mejoras prometedoras en la tasa de error de palabras. Este estudio examina el uso de la inyección de texto para tareas auxiliares, que son las tareas no relacionadas con ASR que a menudo realiza un modelo de extremo a extremo (E2E). En este trabajo, utilizamos el entrenamiento conjunto de extremo a extremo y del modelo de lenguaje interno (JEIT, por sus siglas en inglés) como nuestro algoritmo de inyección de texto para entrenar un modelo de ASR que realiza dos tareas auxiliares. La primera es la capitalización, que es una tarea de desnormalización. La segunda es la predicción de turnos de conversación, que intenta identificar si un usuario ha completado su turno en una interacción con un asistente digital. Mostramos resultados que demuestran que nuestro método de inyección de texto mejora el rendimiento de la capitalización para datos de cola larga y aumenta la recuperación en la detección de turnos de conversación.
English
Text injection for automatic speech recognition (ASR), wherein unpaired text-only data is used to supplement paired audio-text data, has shown promising improvements for word error rate. This study examines the use of text injection for auxiliary tasks, which are the non-ASR tasks often performed by an E2E model. In this work, we use joint end-to-end and internal language model training (JEIT) as our text injection algorithm to train an ASR model which performs two auxiliary tasks. The first is capitalization, which is a de-normalization task. The second is turn-taking prediction, which attempts to identify whether a user has completed their conversation turn in a digital assistant interaction. We show results demonstrating that our text injection method boosts capitalization performance for long-tail data, and improves turn-taking detection recall.
PDF70December 15, 2024