Speech-MASSIVE: SLUおよびその先を目指す多言語音声データセット
Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond
August 7, 2024
著者: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
cs.AI
要旨
本論文では、多言語音声言語理解(SLU)データセットであるSpeech-MASSIVEを紹介します。このデータセットは、MASSIVEテキストコーパスの一部に対応する音声データを含んでいます。Speech-MASSIVEは、異なる言語族に属する12言語をカバーし、MASSIVEから意図予測とスロット充填タスクのアノテーションを継承しています。この拡張は、大規模な多言語SLUデータセットの不足と、基盤モデル(LLM、音声エンコーダ)を言語やタスク横断で評価するための多用途な音声データセットの必要性の高まりに応じて行われました。我々は、マルチモーダル、マルチタスク、多言語のデータセットを提供し、カスケード型とエンドツーエンド型のアーキテクチャを用いた様々なトレーニングシナリオ(ゼロショット、少数ショット、完全微調整)でのSLUベースラインを報告します。さらに、Speech-MASSIVEが音声書き起こし、言語識別、音声翻訳などの他のタスクのベンチマークに適していることを示します。データセット、モデル、コードは以下のURLで公開されています:
https://github.com/hlt-mt/Speech-MASSIVE
English
We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU)
dataset comprising the speech counterpart for a portion of the MASSIVE textual
corpus. Speech-MASSIVE covers 12 languages from different families and inherits
from MASSIVE the annotations for the intent prediction and slot-filling tasks.
Our extension is prompted by the scarcity of massively multilingual SLU
datasets and the growing need for versatile speech datasets to assess
foundation models (LLMs, speech encoders) across languages and tasks. We
provide a multimodal, multitask, multilingual dataset and report SLU baselines
using both cascaded and end-to-end architectures in various training scenarios
(zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the
suitability of Speech-MASSIVE for benchmarking other tasks such as speech
transcription, language identification, and speech translation. The dataset,
models, and code are publicly available at:
https://github.com/hlt-mt/Speech-MASSIVESummary
AI-Generated Summary