Infinity Instruct : Mise à l'échelle de la sélection et de la synthèse d'instructions pour améliorer les modèles de langage
Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models
June 9, 2025
Auteurs: Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) démontrent des performances solides dans des applications réelles, mais les ensembles de données d'instructions open-source existants se concentrent souvent sur des domaines restreints, tels que les mathématiques ou la programmation, limitant ainsi la généralisation et élargissant l'écart avec les modèles propriétaires. Pour combler cet écart, nous introduisons Infinity-Instruct, un ensemble de données d'instructions de haute qualité conçu pour améliorer à la fois les capacités fondamentales et conversationnelles des LLMs grâce à un pipeline en deux phases. Dans la Phase 1, nous sélectionnons 7,4 millions d'instructions fondamentales de haute qualité (InfInstruct-F-7.4M) parmi plus de 100 millions d'échantillons en utilisant des techniques hybrides de sélection de données. Dans la Phase 2, nous synthétisons 1,5 million d'instructions conversationnelles de haute qualité (InfInstruct-G-1.5M) via un processus en deux étapes incluant la sélection, l'évolution et le filtrage diagnostique des instructions. Nous évaluons empiriquement Infinity-Instruct en affinant plusieurs modèles open-source, notamment Mistral, LLaMA, Qwen et Yi, et observons des gains de performance substantiels à la fois sur les benchmarks fondamentaux et de suivi d'instructions, surpassant systématiquement les versions officielles ajustées aux instructions. Notamment, InfInstruct-LLaMA3.1-70B surpasse GPT-4-0314 de 8,6 % sur les tâches de suivi d'instructions tout en atteignant des performances fondamentales comparables. Ces résultats mettent en évidence la synergie entre l'entraînement fondamental et conversationnel et offrent de nouvelles perspectives sur le développement holistique des LLMs. Notre ensemble de données https://huggingface.co/datasets/BAAI/Infinity-Instruct et nos codes https://gitee.com/li-touch/infinity-instruct ont été rendus publics.
English
Large Language Models (LLMs) demonstrate strong performance in real-world
applications, yet existing open-source instruction datasets often concentrate
on narrow domains, such as mathematics or coding, limiting generalization and
widening the gap with proprietary models. To bridge this gap, we introduce
Infinity-Instruct, a high-quality instruction dataset designed to enhance both
foundational and chat capabilities of LLMs through a two-phase pipeline. In
Phase 1, we curate 7.4M high-quality foundational instructions
(InfInstruct-F-7.4M) from over 100M samples using hybrid data selection
techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions
(InfInstruct-G-1.5M) through a two-stage process involving instruction
selection, evolution, and diagnostic filtering. We empirically evaluate
Infinity-Instruct by fine-tuning several open-source models, including Mistral,
LLaMA, Qwen, and Yi, and observe substantial performance gains across both
foundational and instruction following benchmarks, consistently surpassing
official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B
outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving
comparable foundational performance. These results underscore the synergy
between foundational and chat training and offer new insights into holistic LLM
development. Our
datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and
codeshttps://gitee.com/li-touch/infinity-instruct have been publicly
released.