SIFT-50M: Een grootschalige meertalige dataset voor fijnafstemming van spraakinstructies
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
April 12, 2025
Auteurs: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz
cs.AI
Samenvatting
We introduceren SIFT (Speech Instruction Fine-Tuning), een dataset van 50 miljoen voorbeelden die is ontworpen voor instructie-finetuning en pre-training van grote taalmodellen (LLMs) voor spraak en tekst. SIFT-50M is opgebouwd uit openbaar beschikbare spraakcorpora, die gezamenlijk 14.000 uur aan spraak bevatten, en maakt gebruik van LLMs samen met kant-en-klare expertmodellen. De dataset beslaat vijf talen en omvat een breed scala aan spraakbegrip evenals controleerbare spraakgeneratie-instructies. Met behulp van SIFT-50M trainen we SIFT-LLM, dat bestaande spraak-tekst LLMs overtreft op benchmarks voor instructievolging, terwijl het competitieve prestaties behaalt op fundamentele spraaktaken. Om verder onderzoek te ondersteunen, introduceren we ook EvalSIFT, een benchmarkdataset die specifiek is ontworpen om de instructievolgende capaciteiten van spraak-tekst LLMs te evalueren.
English
We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset
designed for instruction fine-tuning and pre-training of speech-text large
language models (LLMs). SIFT-50M is built from publicly available speech
corpora, which collectively contain 14K hours of speech, and leverages LLMs
along with off-the-shelf expert models. The dataset spans five languages,
encompassing a diverse range of speech understanding as well as controllable
speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which
outperforms existing speech-text LLMs on instruction-following benchmarks while
achieving competitive performance on foundational speech tasks. To support
further research, we also introduce EvalSIFT, a benchmark dataset specifically
designed to evaluate the instruction-following capabilities of speech-text
LLMs.Summary
AI-Generated Summary