ChatPaper.aiChatPaper

Speech-MASSIVE: многоязычный речевой набор данных для SLU и за его пределами

Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond

August 7, 2024
Авторы: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
cs.AI

Аннотация

Мы представляем Speech-MASSIVE, многоязычный набор данных для понимания устной речи (SLU), включающий речевую составляющую для части текстового корпуса MASSIVE. Speech-MASSIVE охватывает 12 языков различных языковых семей и наследует от MASSIVE аннотации для задач предсказания намерений и заполнения слотов. Наше дополнение вызвано дефицитом массово многоязычных наборов данных SLU и растущей потребностью в универсальных речевых наборах данных для оценки базовых моделей (LLM, речевых кодировщиков) на разных языках и задачах. Мы предоставляем мультимодальный, многозадачный, многоязычный набор данных и сообщаем о базовых значениях SLU, используя как каскадные, так и конечные архитектуры в различных сценариях обучения (нулевое, малое количество данных, и полное дообучение). Кроме того, мы демонстрируем пригодность Speech-MASSIVE для оценки других задач, таких как транскрибирование речи, идентификация языка и перевод речи. Набор данных, модели и код доступны публично по адресу: https://github.com/hlt-mt/Speech-MASSIVE
English
We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus. Speech-MASSIVE covers 12 languages from different families and inherits from MASSIVE the annotations for the intent prediction and slot-filling tasks. Our extension is prompted by the scarcity of massively multilingual SLU datasets and the growing need for versatile speech datasets to assess foundation models (LLMs, speech encoders) across languages and tasks. We provide a multimodal, multitask, multilingual dataset and report SLU baselines using both cascaded and end-to-end architectures in various training scenarios (zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the suitability of Speech-MASSIVE for benchmarking other tasks such as speech transcription, language identification, and speech translation. The dataset, models, and code are publicly available at: https://github.com/hlt-mt/Speech-MASSIVE

Summary

AI-Generated Summary

PDF102November 28, 2024