Infinity Instruct: Escalonando a Seleção e Síntese de Instruções para Aprimorar Modelos de Linguagem

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) demonstram um desempenho robusto em aplicações do mundo real, porém os conjuntos de dados de instrução de código aberto existentes frequentemente se concentram em domínios restritos, como matemática ou programação, limitando a generalização e ampliando a lacuna em relação aos modelos proprietários. Para reduzir essa lacuna, apresentamos o Infinity-Instruct, um conjunto de dados de instrução de alta qualidade projetado para aprimorar tanto as capacidades fundamentais quanto de conversação dos LLMs por meio de um pipeline de duas fases. Na Fase 1, selecionamos 7,4 milhões de instruções fundamentais de alta qualidade (InfInstruct-F-7.4M) a partir de mais de 100 milhões de amostras, utilizando técnicas híbridas de seleção de dados. Na Fase 2, sintetizamos 1,5 milhão de instruções de conversação de alta qualidade (InfInstruct-G-1.5M) por meio de um processo de duas etapas que envolve seleção, evolução e filtragem diagnóstica de instruções. Avaliamos empiricamente o Infinity-Instruct ajustando finamente vários modelos de código aberto, incluindo Mistral, LLaMA, Qwen e Yi, e observamos ganhos substanciais de desempenho em benchmarks tanto fundamentais quanto de seguimento de instruções, superando consistentemente as versões ajustadas oficialmente. Notavelmente, o InfInstruct-LLaMA3.1-70B supera o GPT-4-0314 em 8,6% em tarefas de seguimento de instruções, ao mesmo tempo que alcança um desempenho fundamental comparável. Esses resultados destacam a sinergia entre o treinamento fundamental e de conversação e oferecem novos insights para o desenvolvimento holístico de LLMs. Nosso conjunto de dados https://huggingface.co/datasets/BAAI/Infinity-Instruct e códigos https://gitee.com/li-touch/infinity-instruct foram disponibilizados publicamente.

English

Large Language Models (LLMs) demonstrate strong performance in real-world applications, yet existing open-source instruction datasets often concentrate on narrow domains, such as mathematics or coding, limiting generalization and widening the gap with proprietary models. To bridge this gap, we introduce Infinity-Instruct, a high-quality instruction dataset designed to enhance both foundational and chat capabilities of LLMs through a two-phase pipeline. In Phase 1, we curate 7.4M high-quality foundational instructions (InfInstruct-F-7.4M) from over 100M samples using hybrid data selection techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions (InfInstruct-G-1.5M) through a two-stage process involving instruction selection, evolution, and diagnostic filtering. We empirically evaluate Infinity-Instruct by fine-tuning several open-source models, including Mistral, LLaMA, Qwen, and Yi, and observe substantial performance gains across both foundational and instruction following benchmarks, consistently surpassing official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving comparable foundational performance. These results underscore the synergy between foundational and chat training and offer new insights into holistic LLM development. Our datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and codeshttps://gitee.com/li-touch/infinity-instruct have been publicly released.

Infinity Instruct: Escalonando a Seleção e Síntese de Instruções para Aprimorar Modelos de Linguagem

Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

Resumo

Support