PromptCoT 2.0: Schaalvergroting van promptsynthese voor redeneren met grote taalmodellen
PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
September 24, 2025
Auteurs: Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
cs.AI
Samenvatting
Grote taalmodellen (LLMs) ontwikkelen zich van conversatiesystemen naar krachtige redeneerders voor taken zoals Olympiade-wiskunde en competitief programmeren. Hoewel het schalen van parameters en testtijdberekeningen vooruitgang heeft gestimuleerd, is een belangrijk knelpunt het gebrek aan hoogwaardige trainingsproblemen: door mensen samengestelde datasets zijn kostbaar en beperkt, terwijl bestaande synthetische corpora vaak te eenvoudig of smal zijn. PromptCoT 1.0 toonde aan dat het injecteren van redeneringen in promptsynthese de probleemcomplexiteit verhoogt. Hierop voortbouwend presenteren we PromptCoT 2.0, een schaalbaar framework dat handmatige heuristieken vervangt door een expectation-maximization (EM) lus, waarbij redeneringen iteratief worden verfijnd om promptconstructie te sturen. Dit produceert problemen die zowel moeilijker als diverser zijn dan eerdere corpora. De synthetische prompts ondersteunen twee post-trainingsregimes: (1) Self-Play, waarbij sterke modellen autonoom verbeteren via verifieerbare feedback zonder sterkere leraren; en (2) Supervised Fine-Tuning (SFT), waarbij zwakkere modellen leren van door leraren gedistilleerde sporen. Uitgebreide experimenten demonstreren de effectiviteit van deze aanpak. In self-play stelt het toepassen van PromptCoT 2.0 op Qwen3-30B-A3B-Thinking-2507 nieuwe state-of-the-art resultaten vast op de 30B-schaal, met +4.4, +4.8, en +5.3 op AIME 24/25 en HMMT 25, +6.1 en +5.0 op LiveCodeBench v5/v6, en +35 Elo op Codeforces. In SFT verhoogt het trainen van Qwen2.5-7B-Instruct uitsluitend op synthetische prompts de nauwkeurigheid naar 73.1 (AIME 24), 65.6 (AIME 25), en 53.4 (LiveCodeBench v5), wat modellen overtrof die op menselijke of hybride data waren getraind. Analyses bevestigen verder dat PromptCoT 2.0 fundamenteel moeilijkere en distributieel verschillende problemen oplevert. Deze resultaten vestigen promptsynthese als een nieuwe as voor het schalen van redenering en positioneren PromptCoT 2.0 als een schaalbare basis voor toekomstige open-source modellen. De implementatie is beschikbaar op https://github.com/inclusionAI/PromptCoT.
English
Large language models (LLMs) are evolving from conversational systems into
strong reasoners for tasks such as Olympiad mathematics and competitive
programming. While scaling parameters and test-time computation has driven
progress, a key bottleneck is the lack of high-quality training problems:
human-curated datasets are costly and limited, while existing synthetic corpora
are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales
into prompt synthesis increases problem difficulty. Building on this, we
present PromptCoT 2.0, a scalable framework that replaces hand-crafted
heuristics with an expectation-maximization (EM) loop, where rationales are
iteratively refined to guide prompt construction. This produces problems that
are both harder and more diverse than prior corpora. The synthetic prompts
support two post-training regimes: (1) Self-Play, where strong models improve
autonomously via verifiable feedback without stronger teachers; and (2)
Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled
traces. Extensive experiments demonstrate the effectiveness of this approach.
In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new
state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME
24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on
Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts
boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5),
surpassing models trained on human or hybrid data. Analyses further confirm
that PromptCoT 2.0 yields fundamentally harder and distributionally distinct
problems. These results establish prompt synthesis as a new axis for scaling
reasoning and position PromptCoT 2.0 as a scalable foundation for future
open-source models. The implementation is available at
https://github.com/inclusionAI/PromptCoT.