ChatPaper.aiChatPaper

Speech-MASSIVE : Un ensemble de données vocales multilingues pour la compréhension du langage parlé et au-delà

Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond

August 7, 2024
Auteurs: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
cs.AI

Résumé

Nous présentons Speech-MASSIVE, un ensemble de données multilingue pour la compréhension du langage parlé (Spoken Language Understanding, SLU), comprenant la contrepartie audio d'une partie du corpus textuel MASSIVE. Speech-MASSIVE couvre 12 langues issues de différentes familles linguistiques et hérite de MASSIVE les annotations pour les tâches de prédiction d'intention et de remplissage de slots. Cette extension est motivée par la rareté des ensembles de données SLU massivement multilingues et par le besoin croissant de jeux de données audio polyvalents pour évaluer les modèles de base (LLM, encodeurs audio) à travers les langues et les tâches. Nous fournissons un ensemble de données multimodal, multitâche et multilingue, et rapportons des performances de référence pour le SLU en utilisant à la fois des architectures en cascade et end-to-end dans divers scénarios d'apprentissage (zero-shot, few-shot et fine-tuning complet). De plus, nous démontrons l'adéquation de Speech-MASSIVE pour l'évaluation d'autres tâches telles que la transcription de la parole, l'identification des langues et la traduction automatique de la parole. L'ensemble de données, les modèles et le code sont disponibles publiquement à l'adresse suivante : https://github.com/hlt-mt/Speech-MASSIVE.
English
We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus. Speech-MASSIVE covers 12 languages from different families and inherits from MASSIVE the annotations for the intent prediction and slot-filling tasks. Our extension is prompted by the scarcity of massively multilingual SLU datasets and the growing need for versatile speech datasets to assess foundation models (LLMs, speech encoders) across languages and tasks. We provide a multimodal, multitask, multilingual dataset and report SLU baselines using both cascaded and end-to-end architectures in various training scenarios (zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the suitability of Speech-MASSIVE for benchmarking other tasks such as speech transcription, language identification, and speech translation. The dataset, models, and code are publicly available at: https://github.com/hlt-mt/Speech-MASSIVE

Summary

AI-Generated Summary

PDF102November 28, 2024