Speech-MASSIVE: Een meertalige spraakdataset voor SLU en daarbuiten
Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond
August 7, 2024
Auteurs: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
cs.AI
Samenvatting
We presenteren Speech-MASSIVE, een meertalige dataset voor Spoken Language Understanding (SLU) die de spraakvariant bevat van een deel van het MASSIVE tekstcorpus. Speech-MASSIVE beslaat 12 talen uit verschillende taalfamilies en erft van MASSIVE de annotaties voor intentievoorspelling en slotvullingstaken. Onze uitbreiding is ingegeven door het gebrek aan grootschalige meertalige SLU-datasets en de groeiende behoefte aan veelzijdige spraakdatasets om foundationmodellen (LLM's, spraakencoders) te evalueren over verschillende talen en taken heen. We bieden een multimodale, multitask, meertalige dataset en rapporteren SLU-baselines met behulp van zowel gecascadeerde als end-to-end-architecturen in diverse trainingsscenario's (zero-shot, few-shot en volledige fine-tuning). Bovendien tonen we aan dat Speech-MASSIVE geschikt is voor het benchmarken van andere taken zoals spraaktranscriptie, taalidentificatie en spraakvertaling. De dataset, modellen en code zijn publiekelijk beschikbaar op: https://github.com/hlt-mt/Speech-MASSIVE.
English
We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU)
dataset comprising the speech counterpart for a portion of the MASSIVE textual
corpus. Speech-MASSIVE covers 12 languages from different families and inherits
from MASSIVE the annotations for the intent prediction and slot-filling tasks.
Our extension is prompted by the scarcity of massively multilingual SLU
datasets and the growing need for versatile speech datasets to assess
foundation models (LLMs, speech encoders) across languages and tasks. We
provide a multimodal, multitask, multilingual dataset and report SLU baselines
using both cascaded and end-to-end architectures in various training scenarios
(zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the
suitability of Speech-MASSIVE for benchmarking other tasks such as speech
transcription, language identification, and speech translation. The dataset,
models, and code are publicly available at:
https://github.com/hlt-mt/Speech-MASSIVE