Speech-MASSIVE: Un Dataset Multilingue di Voce per SLU e Oltre
Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond
August 7, 2024
Autori: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
cs.AI
Abstract
Presentiamo Speech-MASSIVE, un dataset multilingue per il Comprensione del Linguaggio Parlato (Spoken Language Understanding, SLU) che comprende la controparte vocale di una porzione del corpus testuale MASSIVE. Speech-MASSIVE copre 12 lingue appartenenti a diverse famiglie linguistiche e eredita da MASSIVE le annotazioni per i task di previsione dell'intento e di riempimento degli slot. La nostra estensione è motivata dalla scarsità di dataset SLU massicciamente multilingue e dalla crescente necessità di dataset vocali versatili per valutare modelli di base (LLM, encoder vocali) attraverso lingue e task diversi. Forniamo un dataset multimodale, multitask e multilingue e riportiamo i baseline SLU utilizzando sia architetture a cascata che end-to-end in vari scenari di addestramento (zero-shot, few-shot e fine-tuning completo). Inoltre, dimostriamo l'idoneità di Speech-MASSIVE per il benchmarking di altri task come la trascrizione vocale, l'identificazione della lingua e la traduzione vocale. Il dataset, i modelli e il codice sono disponibili pubblicamente all'indirizzo: https://github.com/hlt-mt/Speech-MASSIVE.
English
We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU)
dataset comprising the speech counterpart for a portion of the MASSIVE textual
corpus. Speech-MASSIVE covers 12 languages from different families and inherits
from MASSIVE the annotations for the intent prediction and slot-filling tasks.
Our extension is prompted by the scarcity of massively multilingual SLU
datasets and the growing need for versatile speech datasets to assess
foundation models (LLMs, speech encoders) across languages and tasks. We
provide a multimodal, multitask, multilingual dataset and report SLU baselines
using both cascaded and end-to-end architectures in various training scenarios
(zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the
suitability of Speech-MASSIVE for benchmarking other tasks such as speech
transcription, language identification, and speech translation. The dataset,
models, and code are publicly available at:
https://github.com/hlt-mt/Speech-MASSIVE