Infinity Instruct: Escalonando a Seleção e Síntese de Instruções para Aprimorar Modelos de Linguagem
Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models
June 9, 2025
Autores: Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram um desempenho robusto em aplicações do mundo real, porém os conjuntos de dados de instrução de código aberto existentes frequentemente se concentram em domínios restritos, como matemática ou programação, limitando a generalização e ampliando a lacuna em relação aos modelos proprietários. Para reduzir essa lacuna, apresentamos o Infinity-Instruct, um conjunto de dados de instrução de alta qualidade projetado para aprimorar tanto as capacidades fundamentais quanto de conversação dos LLMs por meio de um pipeline de duas fases. Na Fase 1, selecionamos 7,4 milhões de instruções fundamentais de alta qualidade (InfInstruct-F-7.4M) a partir de mais de 100 milhões de amostras, utilizando técnicas híbridas de seleção de dados. Na Fase 2, sintetizamos 1,5 milhão de instruções de conversação de alta qualidade (InfInstruct-G-1.5M) por meio de um processo de duas etapas que envolve seleção, evolução e filtragem diagnóstica de instruções. Avaliamos empiricamente o Infinity-Instruct ajustando finamente vários modelos de código aberto, incluindo Mistral, LLaMA, Qwen e Yi, e observamos ganhos substanciais de desempenho em benchmarks tanto fundamentais quanto de seguimento de instruções, superando consistentemente as versões ajustadas oficialmente. Notavelmente, o InfInstruct-LLaMA3.1-70B supera o GPT-4-0314 em 8,6% em tarefas de seguimento de instruções, ao mesmo tempo que alcança um desempenho fundamental comparável. Esses resultados destacam a sinergia entre o treinamento fundamental e de conversação e oferecem novos insights para o desenvolvimento holístico de LLMs. Nosso conjunto de dados https://huggingface.co/datasets/BAAI/Infinity-Instruct e códigos https://gitee.com/li-touch/infinity-instruct foram disponibilizados publicamente.
English
Large Language Models (LLMs) demonstrate strong performance in real-world
applications, yet existing open-source instruction datasets often concentrate
on narrow domains, such as mathematics or coding, limiting generalization and
widening the gap with proprietary models. To bridge this gap, we introduce
Infinity-Instruct, a high-quality instruction dataset designed to enhance both
foundational and chat capabilities of LLMs through a two-phase pipeline. In
Phase 1, we curate 7.4M high-quality foundational instructions
(InfInstruct-F-7.4M) from over 100M samples using hybrid data selection
techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions
(InfInstruct-G-1.5M) through a two-stage process involving instruction
selection, evolution, and diagnostic filtering. We empirically evaluate
Infinity-Instruct by fine-tuning several open-source models, including Mistral,
LLaMA, Qwen, and Yi, and observe substantial performance gains across both
foundational and instruction following benchmarks, consistently surpassing
official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B
outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving
comparable foundational performance. These results underscore the synergy
between foundational and chat training and offer new insights into holistic LLM
development. Our
datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and
codeshttps://gitee.com/li-touch/infinity-instruct have been publicly
released.