Speech-MASSIVE: Un conjunto de datos de voz multilingüe para SLU y más allá

Resumen

Presentamos Speech-MASSIVE, un conjunto de datos de Entendimiento del Lenguaje Hablado (SLU, por sus siglas en inglés) multilingüe que comprende la contraparte hablada de una parte del corpus textual MASSIVE. Speech-MASSIVE abarca 12 idiomas de diferentes familias y hereda de MASSIVE las anotaciones para las tareas de predicción de intención y rellenado de espacios. Nuestra extensión surge de la escasez de conjuntos de datos SLU masivamente multilingües y la creciente necesidad de conjuntos de datos de habla versátiles para evaluar modelos fundamentales (LLMs, codificadores de habla) a través de idiomas y tareas. Proporcionamos un conjunto de datos multimodal, multitarea, multilingüe y presentamos líneas base de SLU utilizando arquitecturas tanto en cascada como de extremo a extremo en varios escenarios de entrenamiento (cero disparos, pocos disparos y ajuste fino completo). Además, demostramos la idoneidad de Speech-MASSIVE para la evaluación de otras tareas como transcripción de habla, identificación de idioma y traducción de habla. El conjunto de datos, modelos y código están disponibles públicamente en: https://github.com/hlt-mt/Speech-MASSIVE

English

We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus. Speech-MASSIVE covers 12 languages from different families and inherits from MASSIVE the annotations for the intent prediction and slot-filling tasks. Our extension is prompted by the scarcity of massively multilingual SLU datasets and the growing need for versatile speech datasets to assess foundation models (LLMs, speech encoders) across languages and tasks. We provide a multimodal, multitask, multilingual dataset and report SLU baselines using both cascaded and end-to-end architectures in various training scenarios (zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the suitability of Speech-MASSIVE for benchmarking other tasks such as speech transcription, language identification, and speech translation. The dataset, models, and code are publicly available at: https://github.com/hlt-mt/Speech-MASSIVE