PromptCoT 2.0: Skalierung der Prompt-Synthese für das Reasoning großer Sprachmodelle
PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
September 24, 2025
papers.authors: Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) entwickeln sich von konversationellen Systemen zu leistungsstarken Problemlösern für Aufgaben wie Mathematik-Olympiaden und Wettbewerbsprogrammierung. Während die Skalierung von Parametern und die Berechnung zur Testzeit den Fortschritt vorantreiben, stellt der Mangel an hochwertigen Trainingsproblemen einen zentralen Engpass dar: von Menschen kuratierte Datensätze sind kostspielig und begrenzt, während bestehende synthetische Korpora oft zu einfach oder zu spezifisch sind. PromptCoT 1.0 zeigte, dass die Einbettung von Begründungen in die Prompt-Synthese die Problemkomplexität erhöht. Aufbauend darauf präsentieren wir PromptCoT 2.0, ein skalierbares Framework, das manuell erstellte Heuristiken durch einen Expectation-Maximization (EM)-Zyklus ersetzt, in dem Begründungen iterativ verfeinert werden, um die Prompt-Konstruktion zu steuern. Dies erzeugt Probleme, die sowohl schwieriger als auch vielfältiger sind als bisherige Korpora. Die synthetischen Prompts unterstützen zwei Post-Training-Regime: (1) Selbstspiel, bei dem starke Modelle autonom durch überprüfbares Feedback ohne stärkere Lehrer verbessert werden, und (2) Supervised Fine-Tuning (SFT), bei dem schwächere Modelle aus von Lehrern destillierten Spuren lernen. Umfangreiche Experimente demonstrieren die Wirksamkeit dieses Ansatzes. Im Selbstspiel setzt die Anwendung von PromptCoT 2.0 auf Qwen3-30B-A3B-Thinking-2507 neue Maßstäbe auf der 30B-Skala mit Verbesserungen von +4,4, +4,8 und +5,3 bei AIME 24/25 und HMMT 25, +6,1 und +5,0 bei LiveCodeBench v5/v6 sowie +35 Elo auf Codeforces. Im SFT steigert das Training von Qwen2.5-7B-Instruct ausschließlich auf synthetischen Prompts die Genauigkeit auf 73,1 (AIME 24), 65,6 (AIME 25) und 53,4 (LiveCodeBench v5), womit Modelle übertroffen werden, die auf menschlichen oder hybriden Daten trainiert wurden. Analysen bestätigen weiterhin, dass PromptCoT 2.0 grundlegend schwierigere und verteilungsmäßig unterschiedliche Probleme erzeugt. Diese Ergebnisse etablieren die Prompt-Synthese als eine neue Achse zur Skalierung von Problemlösungsfähigkeiten und positionieren PromptCoT 2.0 als skalierbare Grundlage für zukünftige Open-Source-Modelle. Die Implementierung ist verfügbar unter https://github.com/inclusionAI/PromptCoT.
English
Large language models (LLMs) are evolving from conversational systems into
strong reasoners for tasks such as Olympiad mathematics and competitive
programming. While scaling parameters and test-time computation has driven
progress, a key bottleneck is the lack of high-quality training problems:
human-curated datasets are costly and limited, while existing synthetic corpora
are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales
into prompt synthesis increases problem difficulty. Building on this, we
present PromptCoT 2.0, a scalable framework that replaces hand-crafted
heuristics with an expectation-maximization (EM) loop, where rationales are
iteratively refined to guide prompt construction. This produces problems that
are both harder and more diverse than prior corpora. The synthetic prompts
support two post-training regimes: (1) Self-Play, where strong models improve
autonomously via verifiable feedback without stronger teachers; and (2)
Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled
traces. Extensive experiments demonstrate the effectiveness of this approach.
In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new
state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME
24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on
Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts
boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5),
surpassing models trained on human or hybrid data. Analyses further confirm
that PromptCoT 2.0 yields fundamentally harder and distributionally distinct
problems. These results establish prompt synthesis as a new axis for scaling
reasoning and position PromptCoT 2.0 as a scalable foundation for future
open-source models. The implementation is available at
https://github.com/inclusionAI/PromptCoT.