Speech-MASSIVE: SLU 및 그 이상을 위한 다국어 음성 데이터셋
Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond
August 7, 2024
저자: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
cs.AI
초록
우리는 Speech-MASSIVE을 제시합니다. 이는 MASSIVE 텍스트 말뭉치의 일부에 대한 음성 대응물을 포함하는 다국어 음성 언어 이해(Spoken Language Understanding, SLU) 데이터셋입니다. Speech-MASSIVE은 서로 다른 가족들의 12개 언어를 다루며, 의도 예측과 슬롯 채우기 작업에 대한 MASSIVE 주석을 상속합니다. 우리의 확장은 대규모 다국어 SLU 데이터셋의 부족과 다국어 및 작업 간에 기초 모델(LLM, 음성 인코더)을 평가하기 위한 다목적 음성 데이터셋에 대한 증가하는 필요성에 의해 촉발되었습니다. 우리는 다중 모달, 다중 작업, 다국어 데이터셋을 제공하고 다양한 교육 시나리오(제로샷, 퓨샷 및 완전한 파인튜닝)에서 계층 및 종단 간 구조를 사용한 SLU 기준선을 보고합니다. 더불어, 우리는 Speech-MASSIVE의 다른 작업들(음성 전사, 언어 식별, 음성 번역)을 평가하기 위한 적합성을 증명합니다. 데이터셋, 모델 및 코드는 다음에서 공개적으로 이용 가능합니다: https://github.com/hlt-mt/Speech-MASSIVE
English
We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU)
dataset comprising the speech counterpart for a portion of the MASSIVE textual
corpus. Speech-MASSIVE covers 12 languages from different families and inherits
from MASSIVE the annotations for the intent prediction and slot-filling tasks.
Our extension is prompted by the scarcity of massively multilingual SLU
datasets and the growing need for versatile speech datasets to assess
foundation models (LLMs, speech encoders) across languages and tasks. We
provide a multimodal, multitask, multilingual dataset and report SLU baselines
using both cascaded and end-to-end architectures in various training scenarios
(zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the
suitability of Speech-MASSIVE for benchmarking other tasks such as speech
transcription, language identification, and speech translation. The dataset,
models, and code are publicly available at:
https://github.com/hlt-mt/Speech-MASSIVESummary
AI-Generated Summary