Aumentación de texto para la comprensión del lenguaje hablado con Modelos de Lenguaje a Gran Escala
Augmenting text for spoken language understanding with Large Language Models
September 17, 2023
Autores: Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
cs.AI
Resumen
El análisis semántico del habla (SSP, por sus siglas en inglés) implica generar representaciones comprensibles por máquinas a partir de una entrada de voz. Entrenar modelos robustos para dominios de aplicación existentes representados en datos de entrenamiento o extenderlos a nuevos dominios requiere tripletes correspondientes de datos de voz-transcripción-análisis semántico, los cuales son costosos de obtener. En este artículo, abordamos este desafío examinando métodos que pueden utilizar datos de transcripción-análisis semántico (texto no emparejado) sin la voz correspondiente. Primero, cuando el texto no emparejado se extrae de corpus textuales existentes, se comparan Joint Audio Text (JAT) y Text-to-Speech (TTS) como formas de generar representaciones de voz para el texto no emparejado. Los experimentos en el conjunto de datos STOP muestran que el texto no emparejado de dominios existentes y nuevos mejora el rendimiento en un 2% y un 30% en Exact Match (EM) absoluto, respectivamente. Segundo, consideramos el escenario en el que el texto no emparejado no está disponible en corpus textuales existentes. Proponemos utilizar modelos de lenguaje de gran escala (LLMs) para generar texto no emparejado para dominios existentes y nuevos. Los experimentos muestran que ejemplos y palabras que coocurren con intenciones pueden usarse para generar texto no emparejado con Llama 2.0. Utilizar el texto generado con JAT y TTS para el análisis semántico del habla mejora EM en STOP en un 1.4% y un 2.6% absoluto para dominios existentes y nuevos, respectivamente.
English
Spoken semantic parsing (SSP) involves generating machine-comprehensible
parses from input speech. Training robust models for existing application
domains represented in training data or extending to new domains requires
corresponding triplets of speech-transcript-semantic parse data, which is
expensive to obtain. In this paper, we address this challenge by examining
methods that can use transcript-semantic parse data (unpaired text) without
corresponding speech. First, when unpaired text is drawn from existing textual
corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways
to generate speech representations for unpaired text. Experiments on the STOP
dataset show that unpaired text from existing and new domains improves
performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we
consider the setting when unpaired text is not available in existing textual
corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired
text for existing and new domains. Experiments show that examples and words
that co-occur with intents can be used to generate unpaired text with Llama
2.0. Using the generated text with JAT and TTS for spoken semantic parsing
improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains
respectively.