SIFT-50M: Um Grande Conjunto de Dados Multilíngue para Ajuste Fino de Instruções de Fala
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
April 12, 2025
Autores: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz
cs.AI
Resumo
Apresentamos o SIFT (Speech Instruction Fine-Tuning), um conjunto de dados com 50 milhões de exemplos projetado para o ajuste fino de instruções e pré-treinamento de modelos de linguagem de grande escala (LLMs) que integram fala e texto. O SIFT-50M foi construído a partir de corpora de fala disponíveis publicamente, que contêm coletivamente 14 mil horas de áudio, e utiliza LLMs juntamente com modelos especializados prontos para uso. O conjunto de dados abrange cinco idiomas, englobando uma ampla gama de tarefas de compreensão de fala, bem como instruções de geração de fala controlável. Utilizando o SIFT-50M, treinamos o SIFT-LLM, que supera os LLMs existentes que integram fala e texto em benchmarks de seguimento de instruções, ao mesmo tempo que alcança desempenho competitivo em tarefas fundamentais de processamento de fala. Para apoiar pesquisas futuras, também introduzimos o EvalSIFT, um conjunto de dados de benchmark projetado especificamente para avaliar as capacidades de seguimento de instruções de LLMs que integram fala e texto.
English
We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset
designed for instruction fine-tuning and pre-training of speech-text large
language models (LLMs). SIFT-50M is built from publicly available speech
corpora, which collectively contain 14K hours of speech, and leverages LLMs
along with off-the-shelf expert models. The dataset spans five languages,
encompassing a diverse range of speech understanding as well as controllable
speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which
outperforms existing speech-text LLMs on instruction-following benchmarks while
achieving competitive performance on foundational speech tasks. To support
further research, we also introduce EvalSIFT, a benchmark dataset specifically
designed to evaluate the instruction-following capabilities of speech-text
LLMs.Summary
AI-Generated Summary