ChatPaper.aiChatPaper

Speech-MASSIVE: Um Conjunto de Dados de Fala Multilíngue para Entendimento da Linguagem Falada e Além

Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond

August 7, 2024
Autores: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
cs.AI

Resumo

Apresentamos o Speech-MASSIVE, um conjunto de dados de Compreensão de Linguagem Falada (SLU) multilíngue que inclui a contraparte de fala de uma parte do corpus textual MASSIVE. O Speech-MASSIVE abrange 12 idiomas de diferentes famílias e herda do MASSIVE as anotações para as tarefas de previsão de intenção e preenchimento de slots. Nossa extensão é motivada pela escassez de conjuntos de dados de SLU massivamente multilíngues e pela crescente necessidade de conjuntos de dados de fala versáteis para avaliar modelos fundamentais (LLMs, codificadores de fala) em diferentes idiomas e tarefas. Fornecemos um conjunto de dados multimodal, multitarefa, multilíngue e relatamos baselines de SLU usando arquiteturas tanto em cascata quanto ponta a ponta em vários cenários de treinamento (zero-shot, few-shot e ajuste fino completo). Além disso, demonstramos a adequação do Speech-MASSIVE para avaliar outras tarefas como transcrição de fala, identificação de idioma e tradução de fala. O conjunto de dados, modelos e código estão disponíveis publicamente em: https://github.com/hlt-mt/Speech-MASSIVE
English
We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus. Speech-MASSIVE covers 12 languages from different families and inherits from MASSIVE the annotations for the intent prediction and slot-filling tasks. Our extension is prompted by the scarcity of massively multilingual SLU datasets and the growing need for versatile speech datasets to assess foundation models (LLMs, speech encoders) across languages and tasks. We provide a multimodal, multitask, multilingual dataset and report SLU baselines using both cascaded and end-to-end architectures in various training scenarios (zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the suitability of Speech-MASSIVE for benchmarking other tasks such as speech transcription, language identification, and speech translation. The dataset, models, and code are publicly available at: https://github.com/hlt-mt/Speech-MASSIVE

Summary

AI-Generated Summary

PDF102November 28, 2024