Speech-MASSIVE: Ein mehrsprachiger Sprachdatensatz für die Sprachverarbeitung und darüber hinaus
Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond
August 7, 2024
Autoren: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
cs.AI
Zusammenfassung
Wir präsentieren Speech-MASSIVE, ein mehrsprachiges Datenset für das Verstehen gesprochener Sprache (SLU), das den Sprachanteil eines Teils des MASSIVE-Textkorpus umfasst. Speech-MASSIVE umfasst 12 Sprachen aus verschiedenen Sprachfamilien und übernimmt von MASSIVE die Annotationen für die Absichtsvorhersage und das Slot-Filling. Unsere Erweiterung erfolgt aufgrund des Mangels an umfassend mehrsprachigen SLU-Datensets und des wachsenden Bedarfs an vielseitigen Sprachdatensets zur Bewertung von Grundlagenmodellen (LLMs, Sprachencoder) über Sprachen und Aufgaben hinweg. Wir stellen ein multimodales, multitaskingfähiges, mehrsprachiges Datenset bereit und berichten über SLU-Baselines unter Verwendung sowohl von kaskadierten als auch von end-to-end Architekturen in verschiedenen Trainingsszenarien (Zero-Shot, Few-Shot und vollständiges Fine-Tuning). Darüber hinaus zeigen wir die Eignung von Speech-MASSIVE für das Benchmarking anderer Aufgaben wie Sprachtranskription, Sprachidentifikation und Sprachübersetzung auf. Das Datenset, die Modelle und der Code sind öffentlich verfügbar unter: https://github.com/hlt-mt/Speech-MASSIVE
English
We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU)
dataset comprising the speech counterpart for a portion of the MASSIVE textual
corpus. Speech-MASSIVE covers 12 languages from different families and inherits
from MASSIVE the annotations for the intent prediction and slot-filling tasks.
Our extension is prompted by the scarcity of massively multilingual SLU
datasets and the growing need for versatile speech datasets to assess
foundation models (LLMs, speech encoders) across languages and tasks. We
provide a multimodal, multitask, multilingual dataset and report SLU baselines
using both cascaded and end-to-end architectures in various training scenarios
(zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the
suitability of Speech-MASSIVE for benchmarking other tasks such as speech
transcription, language identification, and speech translation. The dataset,
models, and code are publicly available at:
https://github.com/hlt-mt/Speech-MASSIVESummary
AI-Generated Summary