Infinity Instruct: Escalando la Selección y Síntesis de Instrucciones para Mejorar los Modelos de Lenguaje
Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models
June 9, 2025
Autores: Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran un rendimiento sólido en aplicaciones del mundo real. Sin embargo, los conjuntos de datos de instrucciones de código abierto existentes suelen concentrarse en dominios específicos, como matemáticas o programación, lo que limita la generalización y amplía la brecha con los modelos propietarios. Para reducir esta brecha, presentamos Infinity-Instruct, un conjunto de datos de instrucciones de alta calidad diseñado para mejorar tanto las capacidades fundamentales como de conversación de los LLMs mediante un proceso de dos fases. En la Fase 1, seleccionamos 7.4 millones de instrucciones fundamentales de alta calidad (InfInstruct-F-7.4M) a partir de más de 100 millones de muestras utilizando técnicas híbridas de selección de datos. En la Fase 2, sintetizamos 1.5 millones de instrucciones de conversación de alta calidad (InfInstruct-G-1.5M) mediante un proceso de dos etapas que incluye selección, evolución y filtrado diagnóstico de instrucciones. Evaluamos empíricamente Infinity-Instruct ajustando varios modelos de código abierto, como Mistral, LLaMA, Qwen y Yi, y observamos mejoras significativas en los puntos de referencia tanto fundamentales como de seguimiento de instrucciones, superando consistentemente a las versiones oficiales ajustadas con instrucciones. Destacablemente, InfInstruct-LLaMA3.1-70B supera a GPT-4-0314 en un 8.6\% en tareas de seguimiento de instrucciones, al tiempo que logra un rendimiento fundamental comparable. Estos resultados subrayan la sinergia entre el entrenamiento fundamental y de conversación y ofrecen nuevas perspectivas para el desarrollo integral de los LLMs. Nuestro conjunto de datos https://huggingface.co/datasets/BAAI/Infinity-Instruct y códigos https://gitee.com/li-touch/infinity-instruct han sido liberados públicamente.
English
Large Language Models (LLMs) demonstrate strong performance in real-world
applications, yet existing open-source instruction datasets often concentrate
on narrow domains, such as mathematics or coding, limiting generalization and
widening the gap with proprietary models. To bridge this gap, we introduce
Infinity-Instruct, a high-quality instruction dataset designed to enhance both
foundational and chat capabilities of LLMs through a two-phase pipeline. In
Phase 1, we curate 7.4M high-quality foundational instructions
(InfInstruct-F-7.4M) from over 100M samples using hybrid data selection
techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions
(InfInstruct-G-1.5M) through a two-stage process involving instruction
selection, evolution, and diagnostic filtering. We empirically evaluate
Infinity-Instruct by fine-tuning several open-source models, including Mistral,
LLaMA, Qwen, and Yi, and observe substantial performance gains across both
foundational and instruction following benchmarks, consistently surpassing
official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B
outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving
comparable foundational performance. These results underscore the synergy
between foundational and chat training and offer new insights into holistic LLM
development. Our
datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and
codeshttps://gitee.com/li-touch/infinity-instruct have been publicly
released.