SIFT-50M: Un conjunto de datos multilingüe a gran escala para el ajuste fino de instrucciones de voz
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
April 12, 2025
Autores: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz
cs.AI
Resumen
Presentamos SIFT (Speech Instruction Fine-Tuning), un conjunto de datos de 50 millones de ejemplos diseñado para el ajuste fino mediante instrucciones y el preentrenamiento de modelos de lenguaje grande (LLMs) de texto y habla. SIFT-50M se construye a partir de corpus de habla disponibles públicamente, que en conjunto contienen 14.000 horas de audio, y aprovecha LLMs junto con modelos expertos estándar. El conjunto de datos abarca cinco idiomas, cubriendo una amplia gama de comprensión del habla, así como instrucciones de generación de habla controlable. Utilizando SIFT-50M, entrenamos SIFT-LLM, que supera a los LLMs de texto y habla existentes en benchmarks de seguimiento de instrucciones, al mismo tiempo que logra un rendimiento competitivo en tareas fundamentales de procesamiento de habla. Para apoyar investigaciones futuras, también presentamos EvalSIFT, un conjunto de datos de evaluación diseñado específicamente para medir las capacidades de seguimiento de instrucciones de los LLMs de texto y habla.
English
We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset
designed for instruction fine-tuning and pre-training of speech-text large
language models (LLMs). SIFT-50M is built from publicly available speech
corpora, which collectively contain 14K hours of speech, and leverages LLMs
along with off-the-shelf expert models. The dataset spans five languages,
encompassing a diverse range of speech understanding as well as controllable
speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which
outperforms existing speech-text LLMs on instruction-following benchmarks while
achieving competitive performance on foundational speech tasks. To support
further research, we also introduce EvalSIFT, a benchmark dataset specifically
designed to evaluate the instruction-following capabilities of speech-text
LLMs.Summary
AI-Generated Summary