Amélioration des textes pour la compréhension du langage parlé grâce aux modèles de langage à grande échelle
Augmenting text for spoken language understanding with Large Language Models
September 17, 2023
Auteurs: Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
cs.AI
Résumé
L'analyse sémantique de la parole (Spoken Semantic Parsing, SSP) consiste à générer des analyses compréhensibles par une machine à partir d'un signal vocal. Pour entraîner des modèles robustes dans des domaines d'application existants représentés dans les données d'entraînement ou pour étendre à de nouveaux domaines, il est nécessaire de disposer de triplets correspondants de données parole-transcription-analyse sémantique, dont l'obtention est coûteuse. Dans cet article, nous relevons ce défi en examinant des méthodes capables d'utiliser des données transcription-analyse sémantique (texte non apparié) sans le signal vocal correspondant. Premièrement, lorsque le texte non apparié est extrait de corpus textuels existants, nous comparons les approches Joint Audio Text (JAT) et Text-to-Speech (TTS) pour générer des représentations vocales à partir du texte non apparié. Les expériences sur le jeu de données STOP montrent que le texte non apparié provenant de domaines existants et nouveaux améliore les performances de 2 % et 30 % respectivement en termes de correspondance exacte (Exact Match, EM). Deuxièmement, nous considérons le cas où le texte non apparié n'est pas disponible dans les corpus textuels existants. Nous proposons d'utiliser des modèles de langage de grande taille (Large Language Models, LLMs) pour générer du texte non apparié pour des domaines existants et nouveaux. Les expériences montrent que des exemples et des mots co-occurrents avec des intentions peuvent être utilisés pour générer du texte non apparié avec Llama 2.0. L'utilisation du texte généré avec JAT et TTS pour l'analyse sémantique de la parole améliore l'EM sur STOP de 1,4 % et 2,6 % en valeur absolue pour les domaines existants et nouveaux respectivement.
English
Spoken semantic parsing (SSP) involves generating machine-comprehensible
parses from input speech. Training robust models for existing application
domains represented in training data or extending to new domains requires
corresponding triplets of speech-transcript-semantic parse data, which is
expensive to obtain. In this paper, we address this challenge by examining
methods that can use transcript-semantic parse data (unpaired text) without
corresponding speech. First, when unpaired text is drawn from existing textual
corpora, Joint Audio Text (JAT) and Text-to-Speech (TTS) are compared as ways
to generate speech representations for unpaired text. Experiments on the STOP
dataset show that unpaired text from existing and new domains improves
performance by 2% and 30% in absolute Exact Match (EM) respectively. Second, we
consider the setting when unpaired text is not available in existing textual
corpora. We propose to prompt Large Language Models (LLMs) to generate unpaired
text for existing and new domains. Experiments show that examples and words
that co-occur with intents can be used to generate unpaired text with Llama
2.0. Using the generated text with JAT and TTS for spoken semantic parsing
improves EM on STOP by 1.4% and 2.6% absolute for existing and new domains
respectively.