SIFT-50M: Ein groß angelegter multilingualer Datensatz für die Feinabstimmung von Sprachinstruktionen

Zusammenfassung

Wir stellen SIFT (Speech Instruction Fine-Tuning) vor, einen Datensatz mit 50 Millionen Beispielen, der für das Feinabstimmen von Anweisungen und das Vortraining von sprach-textbasierten großen Sprachmodellen (LLMs) entwickelt wurde. SIFT-50M wurde aus öffentlich verfügbaren Sprachkorpora erstellt, die insgesamt 14.000 Stunden Sprachmaterial umfassen, und nutzt LLMs sowie etablierte Expertensysteme. Der Datensatz umfasst fünf Sprachen und deckt ein breites Spektrum an Sprachverständnis sowie steuerbare Sprachgenerierungsanweisungen ab. Mit SIFT-50M trainieren wir SIFT-LLM, das bestehende sprach-textbasierte LLMs in Benchmarks zur Befolgung von Anweisungen übertrifft und gleichzeitig wettbewerbsfähige Leistungen bei grundlegenden Sprachaufgaben erzielt. Um die weitere Forschung zu unterstützen, führen wir außerdem EvalSIFT ein, einen Benchmark-Datensatz, der speziell zur Bewertung der Fähigkeiten von sprach-textbasierten LLMs zur Befolgung von Anweisungen entwickelt wurde.

English

We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset designed for instruction fine-tuning and pre-training of speech-text large language models (LLMs). SIFT-50M is built from publicly available speech corpora, which collectively contain 14K hours of speech, and leverages LLMs along with off-the-shelf expert models. The dataset spans five languages, encompassing a diverse range of speech understanding as well as controllable speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which outperforms existing speech-text LLMs on instruction-following benchmarks while achieving competitive performance on foundational speech tasks. To support further research, we also introduce EvalSIFT, a benchmark dataset specifically designed to evaluate the instruction-following capabilities of speech-text LLMs.