Infinity Instruct: Масштабирование выбора и синтеза инструкций для улучшения языковых моделей
Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models
June 9, 2025
Авторы: Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют высокую производительность в реальных приложениях, однако существующие открытые наборы данных с инструкциями часто сосредоточены на узких областях, таких как математика или программирование, что ограничивает их обобщающую способность и увеличивает разрыв с проприетарными моделями. Чтобы сократить этот разрыв, мы представляем Infinity-Instruct — высококачественный набор данных с инструкциями, разработанный для улучшения как базовых, так и диалоговых возможностей LLM с помощью двухэтапного процесса. На первом этапе мы отобрали 7,4 миллиона высококачественных базовых инструкций (InfInstruct-F-7.4M) из более чем 100 миллионов образцов, используя гибридные методы отбора данных. На втором этапе мы синтезировали 1,5 миллиона высококачественных диалоговых инструкций (InfInstruct-G-1.5M) с помощью двухэтапного процесса, включающего отбор, эволюцию и диагностическую фильтрацию инструкций. Мы эмпирически оценили Infinity-Instruct, дообучив несколько открытых моделей, включая Mistral, LLaMA, Qwen и Yi, и наблюдали значительное улучшение производительности как на базовых, так и на задачах следования инструкциям, стабильно превосходя официальные версии моделей, дообученных на инструкциях. В частности, InfInstruct-LLaMA3.1-70B превосходит GPT-4-0314 на 8,6% в задачах следования инструкциям, достигая при этом сопоставимых базовых показателей. Эти результаты подчеркивают синергию между базовым и диалоговым обучением и предлагают новые идеи для комплексного развития LLM. Наш набор данных https://huggingface.co/datasets/BAAI/Infinity-Instruct и код https://gitee.com/li-touch/infinity-instruct были опубликованы в открытом доступе.
English
Large Language Models (LLMs) demonstrate strong performance in real-world
applications, yet existing open-source instruction datasets often concentrate
on narrow domains, such as mathematics or coding, limiting generalization and
widening the gap with proprietary models. To bridge this gap, we introduce
Infinity-Instruct, a high-quality instruction dataset designed to enhance both
foundational and chat capabilities of LLMs through a two-phase pipeline. In
Phase 1, we curate 7.4M high-quality foundational instructions
(InfInstruct-F-7.4M) from over 100M samples using hybrid data selection
techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions
(InfInstruct-G-1.5M) through a two-stage process involving instruction
selection, evolution, and diagnostic filtering. We empirically evaluate
Infinity-Instruct by fine-tuning several open-source models, including Mistral,
LLaMA, Qwen, and Yi, and observe substantial performance gains across both
foundational and instruction following benchmarks, consistently surpassing
official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B
outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving
comparable foundational performance. These results underscore the synergy
between foundational and chat training and offer new insights into holistic LLM
development. Our
datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and
codeshttps://gitee.com/li-touch/infinity-instruct have been publicly
released.