PromptCoT 2.0: Scalabilità della Sintesi dei Prompt per il Ragionamento dei Modelli Linguistici di Grandi Dimensioni
PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
September 24, 2025
Autori: Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
cs.AI
Abstract
I grandi modelli linguistici (LLM) stanno evolvendo da sistemi conversazionali a potenti ragionatori per compiti come la matematica olimpica e la programmazione competitiva. Sebbene il ridimensionamento dei parametri e il calcolo in fase di test abbiano guidato i progressi, un collo di bottiglia chiave è la mancanza di problemi di addestramento di alta qualità: i dataset curati dall'uomo sono costosi e limitati, mentre i corpora sintetici esistenti sono spesso troppo facili o ristretti. PromptCoT 1.0 ha dimostrato che l'iniezione di ragionamenti nella sintesi dei prompt aumenta la difficoltà dei problemi. Basandoci su questo, presentiamo PromptCoT 2.0, un framework scalabile che sostituisce le euristiche manuali con un ciclo di expectation-maximization (EM), in cui i ragionamenti vengono raffinati iterativamente per guidare la costruzione dei prompt. Questo produce problemi sia più difficili che più diversificati rispetto ai corpora precedenti. I prompt sintetici supportano due regimi di post-addestramento: (1) Self-Play, dove i modelli forti migliorano autonomamente tramite feedback verificabile senza insegnanti più potenti; e (2) Fine-Tuning Supervisionato (SFT), dove i modelli più deboli apprendono da tracce distillate da insegnanti. Esperimenti estensivi dimostrano l'efficacia di questo approccio. Nel self-play, applicando PromptCoT 2.0 a Qwen3-30B-A3B-Thinking-2507 si ottengono nuovi risultati all'avanguardia alla scala 30B, con +4.4, +4.8 e +5.3 su AIME 24/25 e HMMT 25, +6.1 e +5.0 su LiveCodeBench v5/v6, e +35 Elo su Codeforces. Nel SFT, addestrando Qwen2.5-7B-Instruct esclusivamente su prompt sintetici si aumenta l'accuratezza a 73.1 (AIME 24), 65.6 (AIME 25) e 53.4 (LiveCodeBench v5), superando i modelli addestrati su dati umani o ibridi. Le analisi confermano ulteriormente che PromptCoT 2.0 produce problemi fondamentalmente più difficili e distribuzionalmente distinti. Questi risultati stabiliscono la sintesi dei prompt come un nuovo asse per il ridimensionamento del ragionamento e posizionano PromptCoT 2.0 come una base scalabile per i futuri modelli open-source. L'implementazione è disponibile su https://github.com/inclusionAI/PromptCoT.
English
Large language models (LLMs) are evolving from conversational systems into
strong reasoners for tasks such as Olympiad mathematics and competitive
programming. While scaling parameters and test-time computation has driven
progress, a key bottleneck is the lack of high-quality training problems:
human-curated datasets are costly and limited, while existing synthetic corpora
are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales
into prompt synthesis increases problem difficulty. Building on this, we
present PromptCoT 2.0, a scalable framework that replaces hand-crafted
heuristics with an expectation-maximization (EM) loop, where rationales are
iteratively refined to guide prompt construction. This produces problems that
are both harder and more diverse than prior corpora. The synthetic prompts
support two post-training regimes: (1) Self-Play, where strong models improve
autonomously via verifiable feedback without stronger teachers; and (2)
Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled
traces. Extensive experiments demonstrate the effectiveness of this approach.
In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new
state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME
24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on
Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts
boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5),
surpassing models trained on human or hybrid data. Analyses further confirm
that PromptCoT 2.0 yields fundamentally harder and distributionally distinct
problems. These results establish prompt synthesis as a new axis for scaling
reasoning and position PromptCoT 2.0 as a scalable foundation for future
open-source models. The implementation is available at
https://github.com/inclusionAI/PromptCoT.