PromptCoT 2.0 : Mise à l'échelle de la synthèse de prompts pour le raisonnement des grands modèles de langage
PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
September 24, 2025
papers.authors: Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) évoluent de systèmes conversationnels vers des raisonneurs puissants pour des tâches telles que les mathématiques olympiques et la programmation compétitive. Bien que l'augmentation des paramètres et des calculs au moment du test ait stimulé les progrès, un goulot d'étranglement majeur est le manque de problèmes d'entraînement de haute qualité : les ensembles de données annotés par des humains sont coûteux et limités, tandis que les corpus synthétiques existants sont souvent trop faciles ou restreints. PromptCoT 1.0 a montré que l'injection de justifications dans la synthèse des prompts augmente la difficulté des problèmes. Sur cette base, nous présentons PromptCoT 2.0, un cadre scalable qui remplace les heuristiques manuelles par une boucle d'espérance-maximisation (EM), où les justifications sont itérativement affinées pour guider la construction des prompts. Cela produit des problèmes à la fois plus difficiles et plus diversifiés que les corpus précédents. Les prompts synthétiques supportent deux régimes post-entraînement : (1) le Self-Play, où des modèles forts s'améliorent de manière autonome via un retour vérifiable sans enseignants plus forts ; et (2) le Fine-Tuning Supervisé (SFT), où des modèles plus faibles apprennent à partir de traces distillées par un enseignant. Des expériences approfondies démontrent l'efficacité de cette approche. En Self-Play, l'application de PromptCoT 2.0 à Qwen3-30B-A3B-Thinking-2507 établit de nouveaux records à l'échelle 30B, avec des gains de +4,4, +4,8 et +5,3 sur AIME 24/25 et HMMT 25, +6,1 et +5,0 sur LiveCodeBench v5/v6, et +35 Elo sur Codeforces. En SFT, l'entraînement de Qwen2.5-7B-Instruct uniquement sur des prompts synthétiques augmente la précision à 73,1 (AIME 24), 65,6 (AIME 25) et 53,4 (LiveCodeBench v5), surpassant les modèles entraînés sur des données humaines ou hybrides. Les analyses confirment en outre que PromptCoT 2.0 produit des problèmes fondamentalement plus difficiles et distributionnellement distincts. Ces résultats établissent la synthèse de prompts comme un nouvel axe pour l'échelle du raisonnement et positionnent PromptCoT 2.0 comme une base scalable pour les futurs modèles open-source. L'implémentation est disponible à l'adresse https://github.com/inclusionAI/PromptCoT.
English
Large language models (LLMs) are evolving from conversational systems into
strong reasoners for tasks such as Olympiad mathematics and competitive
programming. While scaling parameters and test-time computation has driven
progress, a key bottleneck is the lack of high-quality training problems:
human-curated datasets are costly and limited, while existing synthetic corpora
are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales
into prompt synthesis increases problem difficulty. Building on this, we
present PromptCoT 2.0, a scalable framework that replaces hand-crafted
heuristics with an expectation-maximization (EM) loop, where rationales are
iteratively refined to guide prompt construction. This produces problems that
are both harder and more diverse than prior corpora. The synthetic prompts
support two post-training regimes: (1) Self-Play, where strong models improve
autonomously via verifiable feedback without stronger teachers; and (2)
Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled
traces. Extensive experiments demonstrate the effectiveness of this approach.
In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new
state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME
24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on
Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts
boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5),
surpassing models trained on human or hybrid data. Analyses further confirm
that PromptCoT 2.0 yields fundamentally harder and distributionally distinct
problems. These results establish prompt synthesis as a new axis for scaling
reasoning and position PromptCoT 2.0 as a scalable foundation for future
open-source models. The implementation is available at
https://github.com/inclusionAI/PromptCoT.