SIFT-50M : Un jeu de données multilingue à grande échelle pour le réglage fin d'instructions vocales
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
April 12, 2025
Auteurs: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz
cs.AI
Résumé
Nous présentons SIFT (Speech Instruction Fine-Tuning), un ensemble de données de 50 millions d'exemples conçu pour le fine-tuning d'instructions et le pré-entraînement de grands modèles de langage (LLMs) combinant parole et texte. SIFT-50M est construit à partir de corpus vocaux disponibles publiquement, qui contiennent collectivement 14 000 heures de parole, et exploite des LLMs ainsi que des modèles experts prêts à l'emploi. L'ensemble de données couvre cinq langues, englobant une diversité de compréhension de la parole ainsi que des instructions de génération de parole contrôlable. En utilisant SIFT-50M, nous entraînons SIFT-LLM, qui surpasse les LLMs parole-texte existants sur des benchmarks de suivi d'instructions tout en atteignant des performances compétitives sur des tâches fondamentales de traitement de la parole. Pour soutenir la recherche future, nous introduisons également EvalSIFT, un ensemble de données de référence spécialement conçu pour évaluer les capacités de suivi d'instructions des LLMs parole-texte.
English
We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset
designed for instruction fine-tuning and pre-training of speech-text large
language models (LLMs). SIFT-50M is built from publicly available speech
corpora, which collectively contain 14K hours of speech, and leverages LLMs
along with off-the-shelf expert models. The dataset spans five languages,
encompassing a diverse range of speech understanding as well as controllable
speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which
outperforms existing speech-text LLMs on instruction-following benchmarks while
achieving competitive performance on foundational speech tasks. To support
further research, we also introduce EvalSIFT, a benchmark dataset specifically
designed to evaluate the instruction-following capabilities of speech-text
LLMs.Summary
AI-Generated Summary