Aumentando textos para compreensão de linguagem falada com Modelos de Linguagem de Grande Escala
Augmenting text for spoken language understanding with Large Language Models
September 17, 2023
Autores: Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
cs.AI
Resumo
A análise semântica de fala (SSP, do inglês Spoken Semantic Parsing) envolve a geração de análises compreensíveis por máquina a partir de entradas de fala. Treinar modelos robustos para domínios de aplicação existentes representados em dados de treinamento ou estender para novos domínios requer tripletos correspondentes de dados de fala-transcrição-análise semântica, que são caros de obter. Neste artigo, abordamos esse desafio examinando métodos que podem usar dados de transcrição-análise semântica (texto não pareado) sem a fala correspondente. Primeiro, quando o texto não pareado é extraído de corpora textuais existentes, comparamos Joint Audio Text (JAT) e Text-to-Speech (TTS) como formas de gerar representações de fala para texto não pareado. Experimentos no conjunto de dados STOP mostram que o texto não pareado de domínios existentes e novos melhora o desempenho em 2% e 30% em Exact Match (EM) absoluto, respectivamente. Segundo, consideramos o cenário em que o texto não pareado não está disponível em corpora textuais existentes. Propomos usar Large Language Models (LLMs) para gerar texto não pareado para domínios existentes e novos. Experimentos mostram que exemplos e palavras que co-ocorrem com intenções podem ser usados para gerar texto não pareado com Llama 2.0. Usar o texto gerado com JAT e TTS para análise semântica de fala melhora o EM no STOP em 1,4% e 2,6% absoluto para domínios existentes e novos, respectivamente.
English
Spoken semantic parsing (SSP) involves generating machine-comprehensible
parses from input speech. Training robust models for existing application
domains represented in training data or extending to new domains requires
corresponding triplets of speech-transcript-semantic parse data, which is
expensive to obtain. In this paper, we address this challenge by examining
methods that can use transcript-semantic parse data (unpaired text) without
corresponding speech. First, when unpaired text is drawn from existing textual
corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways
to generate speech representations for unpaired text. Experiments on the STOP
dataset show that unpaired text from existing and new domains improves
performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we
consider the setting when unpaired text is not available in existing textual
corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired
text for existing and new domains. Experiments show that examples and words
that co-occur with intents can be used to generate unpaired text with Llama
2.0. Using the generated text with JAT and TTS for spoken semantic parsing
improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains
respectively.