SIFT-50M: 음성 명령어 미세 조정을 위한 대규모 다국어 데이터셋
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
April 12, 2025
저자: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz
cs.AI
초록
우리는 음성-텍스트 대규모 언어 모델(LLM)의 지시 미세 조정 및 사전 학습을 위해 설계된 5천만 개의 예시로 구성된 SIFT(Speech Instruction Fine-Tuning) 데이터셋을 소개합니다. SIFT-50M은 공개적으로 이용 가능한 음성 코퍼스로부터 구축되었으며, 이는 총 14,000시간의 음성을 포함하고 있습니다. 또한, 이 데이터셋은 LLM과 기존의 전문가 모델을 활용하여 만들어졌습니다. SIFT-50M은 다섯 가지 언어를 아우르며, 다양한 음성 이해와 제어 가능한 음성 생성 지시를 포함하고 있습니다. SIFT-50M을 사용하여 우리는 SIFT-LLM을 학습시켰으며, 이 모델은 지시 수행 벤치마크에서 기존의 음성-텍스트 LLM을 능가하는 동시에 기본적인 음성 작업에서도 경쟁력 있는 성능을 달성했습니다. 더 나아가 연구를 지원하기 위해, 우리는 음성-텍스트 LLM의 지시 수행 능력을 평가하기 위해 특별히 설계된 벤치마크 데이터셋인 EvalSIFT도 소개합니다.
English
We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset
designed for instruction fine-tuning and pre-training of speech-text large
language models (LLMs). SIFT-50M is built from publicly available speech
corpora, which collectively contain 14K hours of speech, and leverages LLMs
along with off-the-shelf expert models. The dataset spans five languages,
encompassing a diverse range of speech understanding as well as controllable
speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which
outperforms existing speech-text LLMs on instruction-following benchmarks while
achieving competitive performance on foundational speech tasks. To support
further research, we also introduce EvalSIFT, a benchmark dataset specifically
designed to evaluate the instruction-following capabilities of speech-text
LLMs.Summary
AI-Generated Summary