Infinity Instruct: Scalabilità nella Selezione e Sintesi delle Istruzioni per Potenziare i Modelli Linguistici
Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models
June 9, 2025
Autori: Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin
cs.AI
Abstract
I Large Language Model (LLM) dimostrano prestazioni solide in applicazioni del mondo reale, tuttavia i dataset di istruzioni open-source esistenti si concentrano spesso su domini ristretti, come la matematica o la programmazione, limitando la generalizzazione e ampliando il divario con i modelli proprietari. Per colmare questa lacuna, introduciamo Infinity-Instruct, un dataset di istruzioni di alta qualità progettato per migliorare sia le capacità fondamentali che quelle di chat dei LLM attraverso una pipeline in due fasi. Nella Fase 1, curiamo 7,4 milioni di istruzioni fondamentali di alta qualità (InfInstruct-F-7.4M) da oltre 100 milioni di campioni utilizzando tecniche ibride di selezione dei dati. Nella Fase 2, sintetizziamo 1,5 milioni di istruzioni di chat di alta qualità (InfInstruct-G-1.5M) attraverso un processo in due fasi che include selezione, evoluzione e filtraggio diagnostico delle istruzioni. Valutiamo empiricamente Infinity-Instruct ottimizzando diversi modelli open-source, tra cui Mistral, LLaMA, Qwen e Yi, e osserviamo miglioramenti significativi nelle prestazioni sia nei benchmark fondamentali che nel seguire le istruzioni, superando costantemente le controparti ottimizzate ufficialmente. In particolare, InfInstruct-LLaMA3.1-70B supera GPT-4-0314 dell'8,6% nei compiti di seguire le istruzioni, raggiungendo al contempo prestazioni fondamentali comparabili. Questi risultati sottolineano la sinergia tra l'addestramento fondamentale e quello di chat e offrono nuove intuizioni per lo sviluppo olistico dei LLM. Il nostro dataset https://huggingface.co/datasets/BAAI/Infinity-Instruct e i codici https://gitee.com/li-touch/infinity-instruct sono stati rilasciati pubblicamente.
English
Large Language Models (LLMs) demonstrate strong performance in real-world
applications, yet existing open-source instruction datasets often concentrate
on narrow domains, such as mathematics or coding, limiting generalization and
widening the gap with proprietary models. To bridge this gap, we introduce
Infinity-Instruct, a high-quality instruction dataset designed to enhance both
foundational and chat capabilities of LLMs through a two-phase pipeline. In
Phase 1, we curate 7.4M high-quality foundational instructions
(InfInstruct-F-7.4M) from over 100M samples using hybrid data selection
techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions
(InfInstruct-G-1.5M) through a two-stage process involving instruction
selection, evolution, and diagnostic filtering. We empirically evaluate
Infinity-Instruct by fine-tuning several open-source models, including Mistral,
LLaMA, Qwen, and Yi, and observe substantial performance gains across both
foundational and instruction following benchmarks, consistently surpassing
official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B
outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving
comparable foundational performance. These results underscore the synergy
between foundational and chat training and offer new insights into holistic LLM
development. Our
datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and
codeshttps://gitee.com/li-touch/infinity-instruct have been publicly
released.