Het verrijken van tekst voor gesproken taalbegrip met behulp van Large Language Models
Augmenting text for spoken language understanding with Large Language Models
September 17, 2023
Auteurs: Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
cs.AI
Samenvatting
Gesproken semantische parsing (SSP) houdt in dat er machine-begrijpelijke parses worden gegenereerd vanuit gesproken invoer. Het trainen van robuuste modellen voor bestaande toepassingsdomeinen die in trainingsdata zijn vertegenwoordigd, of het uitbreiden naar nieuwe domeinen, vereist corresponderende tripletten van spraak-transcript-semantische parse data, die kostbaar zijn om te verkrijgen. In dit artikel gaan we deze uitdaging aan door methoden te onderzoeken die transcript-semantische parse data (ongeïdentificeerde tekst) kunnen gebruiken zonder bijbehorende spraak. Ten eerste, wanneer ongeïdentificeerde tekst afkomstig is uit bestaande tekstuele corpora, worden Joint Audio Text (JAT) en Text-to-Speech (TTS) vergeleken als manieren om spraakrepresentaties te genereren voor ongeïdentificeerde tekst. Experimenten op de STOP-dataset laten zien dat ongeïdentificeerde tekst uit bestaande en nieuwe domeinen de prestaties verbetert met respectievelijk 2% en 30% in absolute Exact Match (EM). Ten tweede bekijken we de situatie waarin ongeïdentificeerde tekst niet beschikbaar is in bestaande tekstuele corpora. We stellen voor om Large Language Models (LLMs) te gebruiken om ongeïdentificeerde tekst te genereren voor bestaande en nieuwe domeinen. Experimenten tonen aan dat voorbeelden en woorden die samenvallen met intenties kunnen worden gebruikt om ongeïdentificeerde tekst te genereren met Llama 2.0. Het gebruik van de gegenereerde tekst met JAT en TTS voor gesproken semantische parsing verbetert de EM op STOP met respectievelijk 1.4% en 2.6% absoluut voor bestaande en nieuwe domeinen.
English
Spoken semantic parsing (SSP) involves generating machine-comprehensible
parses from input speech. Training robust models for existing application
domains represented in training data or extending to new domains requires
corresponding triplets of speech-transcript-semantic parse data, which is
expensive to obtain. In this paper, we address this challenge by examining
methods that can use transcript-semantic parse data (unpaired text) without
corresponding speech. First, when unpaired text is drawn from existing textual
corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways
to generate speech representations for unpaired text. Experiments on the STOP
dataset show that unpaired text from existing and new domains improves
performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we
consider the setting when unpaired text is not available in existing textual
corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired
text for existing and new domains. Experiments show that examples and words
that co-occur with intents can be used to generate unpaired text with Llama
2.0. Using the generated text with JAT and TTS for spoken semantic parsing
improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains
respectively.