ChatPaper.aiChatPaper

Aumentación de texto para la comprensión del lenguaje hablado con Modelos de Lenguaje a Gran Escala

Augmenting text for spoken language understanding with Large Language Models

September 17, 2023
Autores: Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
cs.AI

Resumen

El análisis semántico del habla (SSP, por sus siglas en inglés) implica generar representaciones comprensibles por máquinas a partir de una entrada de voz. Entrenar modelos robustos para dominios de aplicación existentes representados en datos de entrenamiento o extenderlos a nuevos dominios requiere tripletes correspondientes de datos de voz-transcripción-análisis semántico, los cuales son costosos de obtener. En este artículo, abordamos este desafío examinando métodos que pueden utilizar datos de transcripción-análisis semántico (texto no emparejado) sin la voz correspondiente. Primero, cuando el texto no emparejado se extrae de corpus textuales existentes, se comparan Joint Audio Text (JAT) y Text-to-Speech (TTS) como formas de generar representaciones de voz para el texto no emparejado. Los experimentos en el conjunto de datos STOP muestran que el texto no emparejado de dominios existentes y nuevos mejora el rendimiento en un 2% y un 30% en Exact Match (EM) absoluto, respectivamente. Segundo, consideramos el escenario en el que el texto no emparejado no está disponible en corpus textuales existentes. Proponemos utilizar modelos de lenguaje de gran escala (LLMs) para generar texto no emparejado para dominios existentes y nuevos. Los experimentos muestran que ejemplos y palabras que coocurren con intenciones pueden usarse para generar texto no emparejado con Llama 2.0. Utilizar el texto generado con JAT y TTS para el análisis semántico del habla mejora EM en STOP en un 1.4% y un 2.6% absoluto para dominios existentes y nuevos, respectivamente.
English
Spoken semantic parsing (SSP) involves generating machine-comprehensible parses from input speech. Training robust models for existing application domains represented in training data or extending to new domains requires corresponding triplets of speech-transcript-semantic parse data, which is expensive to obtain. In this paper, we address this challenge by examining methods that can use transcript-semantic parse data (unpaired text) without corresponding speech. First, when unpaired text is drawn from existing textual corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways to generate speech representations for unpaired text. Experiments on the STOP dataset show that unpaired text from existing and new domains improves performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we consider the setting when unpaired text is not available in existing textual corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired text for existing and new domains. Experiments show that examples and words that co-occur with intents can be used to generate unpaired text with Llama 2.0. Using the generated text with JAT and TTS for spoken semantic parsing improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains respectively.
PDF30December 15, 2024