Infinity Instruct : Mise à l'échelle de la sélection et de la synthèse d'instructions pour améliorer les modèles de langage

papers.abstract

Les modèles de langage de grande taille (LLMs) démontrent des performances solides dans des applications réelles, mais les ensembles de données d'instructions open-source existants se concentrent souvent sur des domaines restreints, tels que les mathématiques ou la programmation, limitant ainsi la généralisation et élargissant l'écart avec les modèles propriétaires. Pour combler cet écart, nous introduisons Infinity-Instruct, un ensemble de données d'instructions de haute qualité conçu pour améliorer à la fois les capacités fondamentales et conversationnelles des LLMs grâce à un pipeline en deux phases. Dans la Phase 1, nous sélectionnons 7,4 millions d'instructions fondamentales de haute qualité (InfInstruct-F-7.4M) parmi plus de 100 millions d'échantillons en utilisant des techniques hybrides de sélection de données. Dans la Phase 2, nous synthétisons 1,5 million d'instructions conversationnelles de haute qualité (InfInstruct-G-1.5M) via un processus en deux étapes incluant la sélection, l'évolution et le filtrage diagnostique des instructions. Nous évaluons empiriquement Infinity-Instruct en affinant plusieurs modèles open-source, notamment Mistral, LLaMA, Qwen et Yi, et observons des gains de performance substantiels à la fois sur les benchmarks fondamentaux et de suivi d'instructions, surpassant systématiquement les versions officielles ajustées aux instructions. Notamment, InfInstruct-LLaMA3.1-70B surpasse GPT-4-0314 de 8,6 % sur les tâches de suivi d'instructions tout en atteignant des performances fondamentales comparables. Ces résultats mettent en évidence la synergie entre l'entraînement fondamental et conversationnel et offrent de nouvelles perspectives sur le développement holistique des LLMs. Notre ensemble de données https://huggingface.co/datasets/BAAI/Infinity-Instruct et nos codes https://gitee.com/li-touch/infinity-instruct ont été rendus publics.

English

Large Language Models (LLMs) demonstrate strong performance in real-world applications, yet existing open-source instruction datasets often concentrate on narrow domains, such as mathematics or coding, limiting generalization and widening the gap with proprietary models. To bridge this gap, we introduce Infinity-Instruct, a high-quality instruction dataset designed to enhance both foundational and chat capabilities of LLMs through a two-phase pipeline. In Phase 1, we curate 7.4M high-quality foundational instructions (InfInstruct-F-7.4M) from over 100M samples using hybrid data selection techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions (InfInstruct-G-1.5M) through a two-stage process involving instruction selection, evolution, and diagnostic filtering. We empirically evaluate Infinity-Instruct by fine-tuning several open-source models, including Mistral, LLaMA, Qwen, and Yi, and observe substantial performance gains across both foundational and instruction following benchmarks, consistently surpassing official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving comparable foundational performance. These results underscore the synergy between foundational and chat training and offer new insights into holistic LLM development. Our datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and codeshttps://gitee.com/li-touch/infinity-instruct have been publicly released.

Infinity Instruct : Mise à l'échelle de la sélection et de la synthèse d'instructions pour améliorer les modèles de langage

Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

papers.abstract

Support