Erweiterung von Text für das Verständnis gesprochener Sprache mit großen Sprachmodellen
Augmenting text for spoken language understanding with Large Language Models
September 17, 2023
Autoren: Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
cs.AI
Zusammenfassung
Spoken Semantic Parsing (SSP) beinhaltet die Erzeugung maschinenverständlicher Parses aus gesprochener Eingabe. Das Training robuster Modelle für bestehende Anwendungsdomänen, die in Trainingsdaten repräsentiert sind, oder die Erweiterung auf neue Domänen erfordert entsprechende Tripel aus Sprach-, Transkript- und semantischen Parse-Daten, deren Beschaffung kostspielig ist. In diesem Artikel gehen wir diese Herausforderung an, indem wir Methoden untersuchen, die Transkript-Semantic-Parse-Daten (ungepaarten Text) ohne entsprechende Sprachdaten nutzen können. Zunächst werden, wenn ungepaarter Text aus bestehenden Textkorpora stammt, Joint Audio Text (JAT) und Text-to-Speech (TTS) als Möglichkeiten zur Erzeugung von Sprachrepräsentationen für ungepaarten Text verglichen. Experimente mit dem STOP-Datensatz zeigen, dass ungepaarter Text aus bestehenden und neuen Domänen die Leistung um 2 % bzw. 30 % im absoluten Exact Match (EM) verbessert. Zweitens betrachten wir das Szenario, in dem ungepaarter Text nicht in bestehenden Textkorpora verfügbar ist. Wir schlagen vor, Large Language Models (LLMs) zu verwenden, um ungepaarten Text für bestehende und neue Domänen zu generieren. Experimente zeigen, dass Beispiele und Wörter, die mit Intents gemeinsam auftreten, genutzt werden können, um ungepaarten Text mit Llama 2.0 zu erzeugen. Die Verwendung des generierten Texts mit JAT und TTS für Spoken Semantic Parsing verbessert EM auf STOP um 1,4 % bzw. 2,6 % absolut für bestehende und neue Domänen.
English
Spoken semantic parsing (SSP) involves generating machine-comprehensible
parses from input speech. Training robust models for existing application
domains represented in training data or extending to new domains requires
corresponding triplets of speech-transcript-semantic parse data, which is
expensive to obtain. In this paper, we address this challenge by examining
methods that can use transcript-semantic parse data (unpaired text) without
corresponding speech. First, when unpaired text is drawn from existing textual
corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways
to generate speech representations for unpaired text. Experiments on the STOP
dataset show that unpaired text from existing and new domains improves
performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we
consider the setting when unpaired text is not available in existing textual
corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired
text for existing and new domains. Experiments show that examples and words
that co-occur with intents can be used to generate unpaired text with Llama
2.0. Using the generated text with JAT and TTS for spoken semantic parsing
improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains
respectively.