Desencadeando a Capacidade de Raciocínio de LLMs por meio da Síntese Escalável de Questões a Partir do Zero
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
October 24, 2024
Autores: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang
cs.AI
Resumo
A disponibilidade de dados de alta qualidade é um dos fatores mais importantes para melhorar a capacidade de raciocínio dos LLMs. Trabalhos existentes têm demonstrado a eficácia da criação de mais dados de instrução a partir de perguntas iniciais ou bases de conhecimento. Pesquisas recentes indicam que escalar continuamente a síntese de dados a partir de modelos robustos (por exemplo, GPT-4) pode ainda mais elicitar desempenho de raciocínio. Embora promissor, a comunidade de código aberto ainda carece de dados de alta qualidade em escala e métodos escaláveis de síntese de dados com custos acessíveis. Para lidar com isso, apresentamos o ScaleQuest, um método de síntese de dados escalável e inovador que utiliza modelos de código aberto de "pequeno porte" (por exemplo, 7B) para gerar perguntas do zero sem a necessidade de dados iniciais com restrições de aumento complexas. Com o ScaleQuest eficiente, construímos automaticamente um conjunto de dados de raciocínio matemático consistindo de 1 milhão de pares problema-solução, que são mais eficazes do que conjuntos de dados de código aberto existentes. Ele pode aumentar universalmente o desempenho de modelos de código aberto mainstream (ou seja, Mistral, Llama3, DeepSeekMath e Qwen2-Math) obtendo ganhos de 29,2% a 46,4% em MATH. Notavelmente, apenas ajustando finamente o modelo Qwen2-Math-7B-Base com nosso conjunto de dados pode até mesmo superar o Qwen2-Math-7B-Instruct, um modelo forte e bem alinhado em dados de código fechado, e modelos proprietários como GPT-4-Turbo e Claude-3.5 Sonnet.
English
The availability of high-quality data is one of the most important factors in
improving the reasoning capability of LLMs. Existing works have demonstrated
the effectiveness of creating more instruction data from seed questions or
knowledge bases. Recent research indicates that continually scaling up data
synthesis from strong models (e.g., GPT-4) can further elicit reasoning
performance. Though promising, the open-sourced community still lacks
high-quality data at scale and scalable data synthesis methods with affordable
costs. To address this, we introduce ScaleQuest, a scalable and novel data
synthesis method that utilizes "small-size" (e.g., 7B) open-source models to
generate questions from scratch without the need for seed data with complex
augmentation constraints. With the efficient ScaleQuest, we automatically
constructed a mathematical reasoning dataset consisting of 1 million
problem-solution pairs, which are more effective than existing open-sourced
datasets. It can universally increase the performance of mainstream open-source
models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2%
to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base
model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and
well-aligned model on closed-source data, and proprietary models such as
GPT-4-Turbo and Claude-3.5 Sonnet.Summary
AI-Generated Summary