Улучшение текста для понимания устной речи с использованием крупных языковых моделей
Augmenting text for spoken language understanding with Large Language Models
September 17, 2023
Авторы: Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
cs.AI
Аннотация
Семантический анализ устной речи (Spoken Semantic Parsing, SSP) предполагает генерацию машинно-понятных структур из входного речевого сигнала. Обучение устойчивых моделей для существующих предметных областей, представленных в обучающих данных, или их расширение на новые области требует соответствующих триплетов данных: речь-транскрипт-семантический анализ, которые дорого получить. В данной работе мы решаем эту проблему, исследуя методы, которые могут использовать данные транскрипт-семантический анализ (несвязанный текст) без соответствующего речевого сигнала. Во-первых, когда несвязанный текст извлекается из существующих текстовых корпусов, сравниваются подходы Joint Audio Text (JAT) и Text-to-Speech (TTS) для генерации речевых представлений для несвязанного текста. Эксперименты на наборе данных STOP показывают, что несвязанный текст из существующих и новых областей улучшает производительность на 2% и 30% в абсолютных значениях Exact Match (EM) соответственно. Во-вторых, мы рассматриваем ситуацию, когда несвязанный текст недоступен в существующих текстовых корпусах. Мы предлагаем использовать крупные языковые модели (Large Language Models, LLMs) для генерации несвязанного текста для существующих и новых областей. Эксперименты показывают, что примеры и слова, которые часто встречаются вместе с намерениями, могут быть использованы для генерации несвязанного текста с помощью модели Llama 2.0. Использование сгенерированного текста с JAT и TTS для семантического анализа устной речи улучшает EM на STOP на 1,4% и 2,6% в абсолютных значениях для существующих и новых областей соответственно.
English
Spoken semantic parsing (SSP) involves generating machine-comprehensible
parses from input speech. Training robust models for existing application
domains represented in training data or extending to new domains requires
corresponding triplets of speech-transcript-semantic parse data, which is
expensive to obtain. In this paper, we address this challenge by examining
methods that can use transcript-semantic parse data (unpaired text) without
corresponding speech. First, when unpaired text is drawn from existing textual
corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways
to generate speech representations for unpaired text. Experiments on the STOP
dataset show that unpaired text from existing and new domains improves
performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we
consider the setting when unpaired text is not available in existing textual
corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired
text for existing and new domains. Experiments show that examples and words
that co-occur with intents can be used to generate unpaired text with Llama
2.0. Using the generated text with JAT and TTS for spoken semantic parsing
improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains
respectively.