SIFT-50M: Ein groß angelegter multilingualer Datensatz für die Feinabstimmung von Sprachinstruktionen
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
April 12, 2025
Autoren: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz
cs.AI
Zusammenfassung
Wir stellen SIFT (Speech Instruction Fine-Tuning) vor, einen Datensatz mit 50 Millionen Beispielen, der für das Feinabstimmen von Anweisungen und das Vortraining von sprach-textbasierten großen Sprachmodellen (LLMs) entwickelt wurde. SIFT-50M wurde aus öffentlich verfügbaren Sprachkorpora erstellt, die insgesamt 14.000 Stunden Sprachmaterial umfassen, und nutzt LLMs sowie etablierte Expertensysteme. Der Datensatz umfasst fünf Sprachen und deckt ein breites Spektrum an Sprachverständnis sowie steuerbare Sprachgenerierungsanweisungen ab. Mit SIFT-50M trainieren wir SIFT-LLM, das bestehende sprach-textbasierte LLMs in Benchmarks zur Befolgung von Anweisungen übertrifft und gleichzeitig wettbewerbsfähige Leistungen bei grundlegenden Sprachaufgaben erzielt. Um die weitere Forschung zu unterstützen, führen wir außerdem EvalSIFT ein, einen Benchmark-Datensatz, der speziell zur Bewertung der Fähigkeiten von sprach-textbasierten LLMs zur Befolgung von Anweisungen entwickelt wurde.
English
We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset
designed for instruction fine-tuning and pre-training of speech-text large
language models (LLMs). SIFT-50M is built from publicly available speech
corpora, which collectively contain 14K hours of speech, and leverages LLMs
along with off-the-shelf expert models. The dataset spans five languages,
encompassing a diverse range of speech understanding as well as controllable
speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which
outperforms existing speech-text LLMs on instruction-following benchmarks while
achieving competitive performance on foundational speech tasks. To support
further research, we also introduce EvalSIFT, a benchmark dataset specifically
designed to evaluate the instruction-following capabilities of speech-text
LLMs.Summary
AI-Generated Summary