ChatPaper.aiChatPaper

PromptCoT 2.0: Escalonando a Síntese de Prompts para o Raciocínio de Modelos de Linguagem de Grande Escala

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

September 24, 2025
Autores: Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
cs.AI

Resumo

Grandes modelos de linguagem (LLMs) estão evoluindo de sistemas conversacionais para raciocinadores robustos em tarefas como matemática olímpica e programação competitiva. Embora o aumento de parâmetros e a computação em tempo de teste tenham impulsionado o progresso, um gargalo crucial é a falta de problemas de treinamento de alta qualidade: conjuntos de dados curados por humanos são caros e limitados, enquanto os corpora sintéticos existentes são frequentemente muito fáceis ou restritos. O PromptCoT 1.0 mostrou que a injeção de racionalidades na síntese de prompts aumenta a dificuldade dos problemas. Com base nisso, apresentamos o PromptCoT 2.0, uma estrutura escalável que substitui heurísticas manuais por um loop de maximização de expectativas (EM), onde as racionalidades são refinadas iterativamente para guiar a construção de prompts. Isso produz problemas que são mais difíceis e diversos do que os corpora anteriores. Os prompts sintéticos suportam dois regimes de pós-treinamento: (1) Auto-Jogo, onde modelos fortes melhoram autonomamente por meio de feedback verificável sem a necessidade de professores mais fortes; e (2) Ajuste Fino Supervisionado (SFT), onde modelos mais fracos aprendem a partir de traços destilados por professores. Experimentos extensivos demonstram a eficácia dessa abordagem. No auto-jogo, a aplicação do PromptCoT 2.0 ao Qwen3-30B-A3B-Thinking-2507 estabelece novos recordes de ponta na escala de 30B, com +4,4, +4,8 e +5,3 no AIME 24/25 e HMMT 25, +6,1 e +5,0 no LiveCodeBench v5/v6, e +35 Elo no Codeforces. No SFT, o treinamento do Qwen2.5-7B-Instruct exclusivamente com prompts sintéticos aumenta a precisão para 73,1 (AIME 24), 65,6 (AIME 25) e 53,4 (LiveCodeBench v5), superando modelos treinados com dados humanos ou híbridos. Análises confirmam ainda que o PromptCoT 2.0 produz problemas fundamentalmente mais difíceis e distintivos em termos de distribuição. Esses resultados estabelecem a síntese de prompts como um novo eixo para escalar o raciocínio e posicionam o PromptCoT 2.0 como uma base escalável para futuros modelos de código aberto. A implementação está disponível em https://github.com/inclusionAI/PromptCoT.
English
Large language models (LLMs) are evolving from conversational systems into strong reasoners for tasks such as Olympiad mathematics and competitive programming. While scaling parameters and test-time computation has driven progress, a key bottleneck is the lack of high-quality training problems: human-curated datasets are costly and limited, while existing synthetic corpora are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales into prompt synthesis increases problem difficulty. Building on this, we present PromptCoT 2.0, a scalable framework that replaces hand-crafted heuristics with an expectation-maximization (EM) loop, where rationales are iteratively refined to guide prompt construction. This produces problems that are both harder and more diverse than prior corpora. The synthetic prompts support two post-training regimes: (1) Self-Play, where strong models improve autonomously via verifiable feedback without stronger teachers; and (2) Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled traces. Extensive experiments demonstrate the effectiveness of this approach. In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME 24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5), surpassing models trained on human or hybrid data. Analyses further confirm that PromptCoT 2.0 yields fundamentally harder and distributionally distinct problems. These results establish prompt synthesis as a new axis for scaling reasoning and position PromptCoT 2.0 as a scalable foundation for future open-source models. The implementation is available at https://github.com/inclusionAI/PromptCoT.
PDF325September 29, 2025