Potenciando la Capacidad de Razonamiento de LLMs a través de la Síntesis Escalable de Preguntas desde Cero
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
October 24, 2024
Autores: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang
cs.AI
Resumen
La disponibilidad de datos de alta calidad es uno de los factores más importantes para mejorar la capacidad de razonamiento de los LLMs. Trabajos existentes han demostrado la efectividad de crear más datos instructivos a partir de preguntas iniciales o bases de conocimiento. Investigaciones recientes indican que escalar continuamente la síntesis de datos a partir de modelos potentes (por ejemplo, GPT-4) puede potenciar aún más el rendimiento de razonamiento. Aunque prometedor, la comunidad de código abierto aún carece de datos de alta calidad a gran escala y de métodos escalables de síntesis de datos con costos asequibles. Para abordar esto, presentamos ScaleQuest, un método de síntesis de datos escalable y novedoso que utiliza modelos de código abierto de "tamaño pequeño" (por ejemplo, 7B) para generar preguntas desde cero sin necesidad de datos iniciales con complejas restricciones de aumento. Con ScaleQuest eficiente, construimos automáticamente un conjunto de datos de razonamiento matemático que consta de 1 millón de pares problema-solución, los cuales son más efectivos que los conjuntos de datos de código abierto existentes. Puede aumentar universalmente el rendimiento de los modelos de código abierto principales (es decir, Mistral, Llama3, DeepSeekMath y Qwen2-Math) logrando mejoras del 29.2% al 46.4% en MATH. Es notable que simplemente ajustando finamente el modelo Qwen2-Math-7B-Base con nuestro conjunto de datos puede incluso superar a Qwen2-Math-7B-Instruct, un modelo sólido y bien alineado en datos de código cerrado, y a modelos propietarios como GPT-4-Turbo y Claude-3.5 Sonnet.
English
The availability of high-quality data is one of the most important factors in
improving the reasoning capability of LLMs. Existing works have demonstrated
the effectiveness of creating more instruction data from seed questions or
knowledge bases. Recent research indicates that continually scaling up data
synthesis from strong models (e.g., GPT-4) can further elicit reasoning
performance. Though promising, the open-sourced community still lacks
high-quality data at scale and scalable data synthesis methods with affordable
costs. To address this, we introduce ScaleQuest, a scalable and novel data
synthesis method that utilizes "small-size" (e.g., 7B) open-source models to
generate questions from scratch without the need for seed data with complex
augmentation constraints. With the efficient ScaleQuest, we automatically
constructed a mathematical reasoning dataset consisting of 1 million
problem-solution pairs, which are more effective than existing open-sourced
datasets. It can universally increase the performance of mainstream open-source
models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2%
to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base
model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and
well-aligned model on closed-source data, and proprietary models such as
GPT-4-Turbo and Claude-3.5 Sonnet.Summary
AI-Generated Summary