Infinity Instruct: Масштабирование выбора и синтеза инструкций для улучшения языковых моделей

Аннотация

Крупные языковые модели (LLM) демонстрируют высокую производительность в реальных приложениях, однако существующие открытые наборы данных с инструкциями часто сосредоточены на узких областях, таких как математика или программирование, что ограничивает их обобщающую способность и увеличивает разрыв с проприетарными моделями. Чтобы сократить этот разрыв, мы представляем Infinity-Instruct — высококачественный набор данных с инструкциями, разработанный для улучшения как базовых, так и диалоговых возможностей LLM с помощью двухэтапного процесса. На первом этапе мы отобрали 7,4 миллиона высококачественных базовых инструкций (InfInstruct-F-7.4M) из более чем 100 миллионов образцов, используя гибридные методы отбора данных. На втором этапе мы синтезировали 1,5 миллиона высококачественных диалоговых инструкций (InfInstruct-G-1.5M) с помощью двухэтапного процесса, включающего отбор, эволюцию и диагностическую фильтрацию инструкций. Мы эмпирически оценили Infinity-Instruct, дообучив несколько открытых моделей, включая Mistral, LLaMA, Qwen и Yi, и наблюдали значительное улучшение производительности как на базовых, так и на задачах следования инструкциям, стабильно превосходя официальные версии моделей, дообученных на инструкциях. В частности, InfInstruct-LLaMA3.1-70B превосходит GPT-4-0314 на 8,6% в задачах следования инструкциям, достигая при этом сопоставимых базовых показателей. Эти результаты подчеркивают синергию между базовым и диалоговым обучением и предлагают новые идеи для комплексного развития LLM. Наш набор данных https://huggingface.co/datasets/BAAI/Infinity-Instruct и код https://gitee.com/li-touch/infinity-instruct были опубликованы в открытом доступе.

English

Large Language Models (LLMs) demonstrate strong performance in real-world applications, yet existing open-source instruction datasets often concentrate on narrow domains, such as mathematics or coding, limiting generalization and widening the gap with proprietary models. To bridge this gap, we introduce Infinity-Instruct, a high-quality instruction dataset designed to enhance both foundational and chat capabilities of LLMs through a two-phase pipeline. In Phase 1, we curate 7.4M high-quality foundational instructions (InfInstruct-F-7.4M) from over 100M samples using hybrid data selection techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions (InfInstruct-G-1.5M) through a two-stage process involving instruction selection, evolution, and diagnostic filtering. We empirically evaluate Infinity-Instruct by fine-tuning several open-source models, including Mistral, LLaMA, Qwen, and Yi, and observe substantial performance gains across both foundational and instruction following benchmarks, consistently surpassing official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving comparable foundational performance. These results underscore the synergy between foundational and chat training and offer new insights into holistic LLM development. Our datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and codeshttps://gitee.com/li-touch/infinity-instruct have been publicly released.

Infinity Instruct: Масштабирование выбора и синтеза инструкций для улучшения языковых моделей

Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

Аннотация

Support