Infinity Instruct: Escalando la Selección y Síntesis de Instrucciones para Mejorar los Modelos de Lenguaje

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran un rendimiento sólido en aplicaciones del mundo real. Sin embargo, los conjuntos de datos de instrucciones de código abierto existentes suelen concentrarse en dominios específicos, como matemáticas o programación, lo que limita la generalización y amplía la brecha con los modelos propietarios. Para reducir esta brecha, presentamos Infinity-Instruct, un conjunto de datos de instrucciones de alta calidad diseñado para mejorar tanto las capacidades fundamentales como de conversación de los LLMs mediante un proceso de dos fases. En la Fase 1, seleccionamos 7.4 millones de instrucciones fundamentales de alta calidad (InfInstruct-F-7.4M) a partir de más de 100 millones de muestras utilizando técnicas híbridas de selección de datos. En la Fase 2, sintetizamos 1.5 millones de instrucciones de conversación de alta calidad (InfInstruct-G-1.5M) mediante un proceso de dos etapas que incluye selección, evolución y filtrado diagnóstico de instrucciones. Evaluamos empíricamente Infinity-Instruct ajustando varios modelos de código abierto, como Mistral, LLaMA, Qwen y Yi, y observamos mejoras significativas en los puntos de referencia tanto fundamentales como de seguimiento de instrucciones, superando consistentemente a las versiones oficiales ajustadas con instrucciones. Destacablemente, InfInstruct-LLaMA3.1-70B supera a GPT-4-0314 en un 8.6\% en tareas de seguimiento de instrucciones, al tiempo que logra un rendimiento fundamental comparable. Estos resultados subrayan la sinergia entre el entrenamiento fundamental y de conversación y ofrecen nuevas perspectivas para el desarrollo integral de los LLMs. Nuestro conjunto de datos https://huggingface.co/datasets/BAAI/Infinity-Instruct y códigos https://gitee.com/li-touch/infinity-instruct han sido liberados públicamente.

English

Large Language Models (LLMs) demonstrate strong performance in real-world applications, yet existing open-source instruction datasets often concentrate on narrow domains, such as mathematics or coding, limiting generalization and widening the gap with proprietary models. To bridge this gap, we introduce Infinity-Instruct, a high-quality instruction dataset designed to enhance both foundational and chat capabilities of LLMs through a two-phase pipeline. In Phase 1, we curate 7.4M high-quality foundational instructions (InfInstruct-F-7.4M) from over 100M samples using hybrid data selection techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions (InfInstruct-G-1.5M) through a two-stage process involving instruction selection, evolution, and diagnostic filtering. We empirically evaluate Infinity-Instruct by fine-tuning several open-source models, including Mistral, LLaMA, Qwen, and Yi, and observe substantial performance gains across both foundational and instruction following benchmarks, consistently surpassing official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving comparable foundational performance. These results underscore the synergy between foundational and chat training and offer new insights into holistic LLM development. Our datasethttps://huggingface.co/datasets/BAAI/Infinity-Instruct and codeshttps://gitee.com/li-touch/infinity-instruct have been publicly released.

Infinity Instruct: Escalando la Selección y Síntesis de Instrucciones para Mejorar los Modelos de Lenguaje

Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

Resumen

Support