Infinity Instruct: Scalabilità nella Selezione e Sintesi delle Istruzioni per Potenziare i Modelli Linguistici

Abstract

I Large Language Model (LLM) dimostrano prestazioni solide in applicazioni del mondo reale, tuttavia i dataset di istruzioni open-source esistenti si concentrano spesso su domini ristretti, come la matematica o la programmazione, limitando la generalizzazione e ampliando il divario con i modelli proprietari. Per colmare questa lacuna, introduciamo Infinity-Instruct, un dataset di istruzioni di alta qualità progettato per migliorare sia le capacità fondamentali che quelle di chat dei LLM attraverso una pipeline in due fasi. Nella Fase 1, curiamo 7,4 milioni di istruzioni fondamentali di alta qualità (InfInstruct-F-7.4M) da oltre 100 milioni di campioni utilizzando tecniche ibride di selezione dei dati. Nella Fase 2, sintetizziamo 1,5 milioni di istruzioni di chat di alta qualità (InfInstruct-G-1.5M) attraverso un processo in due fasi che include selezione, evoluzione e filtraggio diagnostico delle istruzioni. Valutiamo empiricamente Infinity-Instruct ottimizzando diversi modelli open-source, tra cui Mistral, LLaMA, Qwen e Yi, e osserviamo miglioramenti significativi nelle prestazioni sia nei benchmark fondamentali che nel seguire le istruzioni, superando costantemente le controparti ottimizzate ufficialmente. In particolare, InfInstruct-LLaMA3.1-70B supera GPT-4-0314 dell'8,6% nei compiti di seguire le istruzioni, raggiungendo al contempo prestazioni fondamentali comparabili. Questi risultati sottolineano la sinergia tra l'addestramento fondamentale e quello di chat e offrono nuove intuizioni per lo sviluppo olistico dei LLM. Il nostro dataset https://huggingface.co/datasets/BAAI/Infinity-Instruct e i codici https://gitee.com/li-touch/infinity-instruct sono stati rilasciati pubblicamente.

English

Large Language Models (LLMs) demonstrate strong performance in real-world applications, yet existing open-source instruction datasets often concentrate on narrow domains, such as mathematics or coding, limiting generalization and widening the gap with proprietary models. To bridge this gap, we introduce Infinity-Instruct, a high-quality instruction dataset designed to enhance both foundational and chat capabilities of LLMs through a two-phase pipeline. In Phase 1, we curate 7.4M high-quality foundational instructions (InfInstruct-F-7.4M) from over 100M samples using hybrid data selection techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions (InfInstruct-G-1.5M) through a two-stage process involving instruction selection, evolution, and diagnostic filtering. We empirically evaluate Infinity-Instruct by fine-tuning several open-source models, including Mistral, LLaMA, Qwen, and Yi, and observe substantial performance gains across both foundational and instruction following benchmarks, consistently surpassing official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving comparable foundational performance. These results underscore the synergy between foundational and chat training and offer new insights into holistic LLM development. Our datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and codeshttps://gitee.com/li-touch/infinity-instruct have been publicly released.

Infinity Instruct: Scalabilità nella Selezione e Sintesi delle Istruzioni per Potenziare i Modelli Linguistici

Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

Abstract

Support