ChatPaper.aiChatPaper

無限指示:言語モデルの強化のための指示選択と合成のスケーリング

Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

June 9, 2025
著者: Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin
cs.AI

要旨

大規模言語モデル(LLMs)は実世界のアプリケーションにおいて高い性能を示すが、既存のオープンソースの指示データセットは数学やコーディングなどの狭い領域に集中しており、汎化能力が制限され、プロプライエタリモデルとの差が広がっている。この差を埋めるため、我々はInfinity-Instructを導入する。これは、2段階のパイプラインを通じてLLMsの基盤能力とチャット能力の両方を強化するために設計された高品質な指示データセットである。第1段階では、ハイブリッドデータ選択技術を用いて1億以上のサンプルから7.4Mの高品質な基盤指示(InfInstruct-F-7.4M)を選定した。第2段階では、指示の選択、進化、診断フィルタリングを含む2段階のプロセスを通じて1.5Mの高品質なチャット指示(InfInstruct-G-1.5M)を合成した。我々はInfinity-Instructを実証的に評価するため、Mistral、LLaMA、Qwen、Yiなどの複数のオープンソースモデルをファインチューニングし、基盤能力と指示追従ベンチマークの両方で大幅な性能向上を観察し、公式の指示チューニングされたモデルを一貫して上回った。特に、InfInstruct-LLaMA3.1-70Bは指示追従タスクにおいてGPT-4-0314を8.6%上回り、基盤性能でも同等の結果を達成した。これらの結果は、基盤トレーニングとチャットトレーニングの相乗効果を強調し、LLMの包括的開発に関する新たな洞察を提供する。我々のデータセットhttps://huggingface.co/datasets/BAAI/Infinity-Instructとコードhttps://gitee.com/li-touch/infinity-instructは公開されている。
English
Large Language Models (LLMs) demonstrate strong performance in real-world applications, yet existing open-source instruction datasets often concentrate on narrow domains, such as mathematics or coding, limiting generalization and widening the gap with proprietary models. To bridge this gap, we introduce Infinity-Instruct, a high-quality instruction dataset designed to enhance both foundational and chat capabilities of LLMs through a two-phase pipeline. In Phase 1, we curate 7.4M high-quality foundational instructions (InfInstruct-F-7.4M) from over 100M samples using hybrid data selection techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions (InfInstruct-G-1.5M) through a two-stage process involving instruction selection, evolution, and diagnostic filtering. We empirically evaluate Infinity-Instruct by fine-tuning several open-source models, including Mistral, LLaMA, Qwen, and Yi, and observe substantial performance gains across both foundational and instruction following benchmarks, consistently surpassing official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving comparable foundational performance. These results underscore the synergy between foundational and chat training and offer new insights into holistic LLM development. Our datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and codeshttps://gitee.com/li-touch/infinity-instruct have been publicly released.
PDF43June 16, 2025