ChatPaper.aiChatPaper

Injeção de Texto para Previsão de Capitalização e Tomada de Turnos em Modelos de Fala

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

August 14, 2023
Autores: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
cs.AI

Resumo

A injeção de texto para reconhecimento automático de fala (ASR), na qual dados textuais não pareados são utilizados para complementar dados de áudio-texto pareados, tem demonstrado melhorias promissoras na taxa de erro de palavras. Este estudo examina o uso da injeção de texto para tarefas auxiliares, que são as tarefas não relacionadas ao ASR frequentemente realizadas por um modelo de ponta a ponta (E2E). Neste trabalho, utilizamos o treinamento conjunto de modelo de linguagem interno e de ponta a ponta (JEIT) como nosso algoritmo de injeção de texto para treinar um modelo de ASR que executa duas tarefas auxiliares. A primeira é a capitalização, que é uma tarefa de desnormalização. A segunda é a previsão de alternância de turnos, que tenta identificar se um usuário concluiu seu turno de conversa em uma interação com um assistente digital. Mostramos resultados que demonstram que nosso método de injeção de texto melhora o desempenho de capitalização para dados de cauda longa e aumenta a taxa de recall na detecção de alternância de turnos.
English
Text injection for automatic speech recognition (ASR), wherein unpaired text-only data is used to supplement paired audio-text data, has shown promising improvements for word error rate. This study examines the use of text injection for auxiliary tasks, which are the non-ASR tasks often performed by an E2E model. In this work, we use joint end-to-end and internal language model training (JEIT) as our text injection algorithm to train an ASR model which performs two auxiliary tasks. The first is capitalization, which is a de-normalization task. The second is turn-taking prediction, which attempts to identify whether a user has completed their conversation turn in a digital assistant interaction. We show results demonstrating that our text injection method boosts capitalization performance for long-tail data, and improves turn-taking detection recall.
PDF70February 8, 2026