ChatPaper.aiChatPaper

Инъекция текста для прогнозирования заглавных букв и смены говорящих в речевых моделях

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

August 14, 2023
Авторы: Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath
cs.AI

Аннотация

Инъекция текста для автоматического распознавания речи (ASR), при которой используются только непарные текстовые данные для дополнения парных аудио-текстовых данных, показала многообещающие улучшения в снижении частоты ошибок на слово. В данном исследовании рассматривается использование инъекции текста для вспомогательных задач, которые представляют собой не-ASR задачи, часто выполняемые сквозной (end-to-end) моделью. В этой работе мы используем совместное сквозное обучение с внутренней языковой моделью (JEIT) в качестве алгоритма инъекции текста для обучения модели ASR, которая выполняет две вспомогательные задачи. Первая — это капитализация, которая является задачей де-нормализации. Вторая — предсказание смены реплик, которое пытается определить, завершил ли пользователь свою реплику во взаимодействии с цифровым помощником. Мы демонстрируем результаты, показывающие, что наш метод инъекции текста повышает производительность капитализации для данных с длинным хвостом и улучшает полноту обнаружения смены реплик.
English
Text injection for automatic speech recognition (ASR), wherein unpaired text-only data is used to supplement paired audio-text data, has shown promising improvements for word error rate. This study examines the use of text injection for auxiliary tasks, which are the non-ASR tasks often performed by an E2E model. In this work, we use joint end-to-end and internal language model training (JEIT) as our text injection algorithm to train an ASR model which performs two auxiliary tasks. The first is capitalization, which is a de-normalization task. The second is turn-taking prediction, which attempts to identify whether a user has completed their conversation turn in a digital assistant interaction. We show results demonstrating that our text injection method boosts capitalization performance for long-tail data, and improves turn-taking detection recall.
PDF70December 15, 2024