ChatPaper.aiChatPaper

Aumentare il testo per la comprensione del linguaggio parlato con Modelli Linguistici di Grande Scala

Augmenting text for spoken language understanding with Large Language Models

September 17, 2023
Autori: Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
cs.AI

Abstract

Il parsing semantico parlato (SSP) consiste nel generare parse comprensibili dalle macchine a partire da input vocali. Per addestrare modelli robusti per i domini applicativi esistenti rappresentati nei dati di training o per estendersi a nuovi domini, sono necessarie corrispondenti triplette di dati voce-trascrizione-parse semantica, che sono costose da ottenere. In questo articolo, affrontiamo questa sfida esaminando metodi che possono utilizzare dati trascrizione-parse semantica (testo non accoppiato) senza la corrispondente traccia vocale. In primo luogo, quando il testo non accoppiato è estratto da corpora testuali esistenti, Joint Audio Text (JAT) e Text-to-Speech (TTS) vengono confrontati come metodi per generare rappresentazioni vocali per il testo non accoppiato. Esperimenti sul dataset STOP mostrano che il testo non accoppiato proveniente da domini esistenti e nuovi migliora le prestazioni rispettivamente del 2% e del 30% in termini di Exact Match (EM) assoluto. In secondo luogo, consideriamo lo scenario in cui il testo non accoppiato non è disponibile nei corpora testuali esistenti. Proponiamo di utilizzare prompt con Large Language Models (LLMs) per generare testo non accoppiato per domini esistenti e nuovi. Gli esperimenti dimostrano che esempi e parole che co-occorrono con le intenzioni possono essere utilizzati per generare testo non accoppiato con Llama 2.0. L'uso del testo generato con JAT e TTS per il parsing semantico parlato migliora l'EM su STOP rispettivamente dell'1,4% e del 2,6% in termini assoluti per domini esistenti e nuovi.
English
Spoken semantic parsing (SSP) involves generating machine-comprehensible parses from input speech. Training robust models for existing application domains represented in training data or extending to new domains requires corresponding triplets of speech-transcript-semantic parse data, which is expensive to obtain. In this paper, we address this challenge by examining methods that can use transcript-semantic parse data (unpaired text) without corresponding speech. First, when unpaired text is drawn from existing textual corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways to generate speech representations for unpaired text. Experiments on the STOP dataset show that unpaired text from existing and new domains improves performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we consider the setting when unpaired text is not available in existing textual corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired text for existing and new domains. Experiments show that examples and words that co-occur with intents can be used to generate unpaired text with Llama 2.0. Using the generated text with JAT and TTS for spoken semantic parsing improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains respectively.
PDF20February 8, 2026