SIFT-50M: Un conjunto de datos multilingüe a gran escala para el ajuste fino de instrucciones de voz

Resumen

Presentamos SIFT (Speech Instruction Fine-Tuning), un conjunto de datos de 50 millones de ejemplos diseñado para el ajuste fino mediante instrucciones y el preentrenamiento de modelos de lenguaje grande (LLMs) de texto y habla. SIFT-50M se construye a partir de corpus de habla disponibles públicamente, que en conjunto contienen 14.000 horas de audio, y aprovecha LLMs junto con modelos expertos estándar. El conjunto de datos abarca cinco idiomas, cubriendo una amplia gama de comprensión del habla, así como instrucciones de generación de habla controlable. Utilizando SIFT-50M, entrenamos SIFT-LLM, que supera a los LLMs de texto y habla existentes en benchmarks de seguimiento de instrucciones, al mismo tiempo que logra un rendimiento competitivo en tareas fundamentales de procesamiento de habla. Para apoyar investigaciones futuras, también presentamos EvalSIFT, un conjunto de datos de evaluación diseñado específicamente para medir las capacidades de seguimiento de instrucciones de los LLMs de texto y habla.

English

We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset designed for instruction fine-tuning and pre-training of speech-text large language models (LLMs). SIFT-50M is built from publicly available speech corpora, which collectively contain 14K hours of speech, and leverages LLMs along with off-the-shelf expert models. The dataset spans five languages, encompassing a diverse range of speech understanding as well as controllable speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which outperforms existing speech-text LLMs on instruction-following benchmarks while achieving competitive performance on foundational speech tasks. To support further research, we also introduce EvalSIFT, a benchmark dataset specifically designed to evaluate the instruction-following capabilities of speech-text LLMs.