Speech-MASSIVE: Un conjunto de datos de voz multilingüe para SLU y más allá
Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond
August 7, 2024
Autores: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
cs.AI
Resumen
Presentamos Speech-MASSIVE, un conjunto de datos de Entendimiento del Lenguaje Hablado (SLU, por sus siglas en inglés) multilingüe que comprende la contraparte hablada de una parte del corpus textual MASSIVE. Speech-MASSIVE abarca 12 idiomas de diferentes familias y hereda de MASSIVE las anotaciones para las tareas de predicción de intención y rellenado de espacios. Nuestra extensión surge de la escasez de conjuntos de datos SLU masivamente multilingües y la creciente necesidad de conjuntos de datos de habla versátiles para evaluar modelos fundamentales (LLMs, codificadores de habla) a través de idiomas y tareas. Proporcionamos un conjunto de datos multimodal, multitarea, multilingüe y presentamos líneas base de SLU utilizando arquitecturas tanto en cascada como de extremo a extremo en varios escenarios de entrenamiento (cero disparos, pocos disparos y ajuste fino completo). Además, demostramos la idoneidad de Speech-MASSIVE para la evaluación de otras tareas como transcripción de habla, identificación de idioma y traducción de habla. El conjunto de datos, modelos y código están disponibles públicamente en: https://github.com/hlt-mt/Speech-MASSIVE
English
We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU)
dataset comprising the speech counterpart for a portion of the MASSIVE textual
corpus. Speech-MASSIVE covers 12 languages from different families and inherits
from MASSIVE the annotations for the intent prediction and slot-filling tasks.
Our extension is prompted by the scarcity of massively multilingual SLU
datasets and the growing need for versatile speech datasets to assess
foundation models (LLMs, speech encoders) across languages and tasks. We
provide a multimodal, multitask, multilingual dataset and report SLU baselines
using both cascaded and end-to-end architectures in various training scenarios
(zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the
suitability of Speech-MASSIVE for benchmarking other tasks such as speech
transcription, language identification, and speech translation. The dataset,
models, and code are publicly available at:
https://github.com/hlt-mt/Speech-MASSIVESummary
AI-Generated Summary