PromptCoT 2.0: Масштабирование синтеза промптов для рассуждений в крупных языковых моделях
PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
September 24, 2025
Авторы: Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
cs.AI
Аннотация
Крупные языковые модели (LLMs) эволюционируют от систем для ведения диалогов к мощным инструментам для решения задач, таких как олимпиадная математика и соревновательное программирование. Хотя увеличение числа параметров и вычислительных ресурсов на этапе тестирования способствовало прогрессу, ключевым ограничением остается недостаток высококачественных учебных задач: ручная подготовка наборов данных дорогостояща и ограничена, а существующие синтетические корпуса часто слишком просты или узконаправлены. PromptCoT 1.0 показал, что добавление обоснований в синтез подсказок повышает сложность задач. Развивая эту идею, мы представляем PromptCoT 2.0 — масштабируемую структуру, которая заменяет ручные эвристики на цикл максимизации ожиданий (EM), где обоснования итеративно уточняются для построения подсказок. Это создает задачи, которые одновременно сложнее и разнообразнее, чем в предыдущих корпусах. Синтетические подсказки поддерживают два режима пост-обучения: (1) Самоигра, где сильные модели улучшаются автономно с помощью проверяемой обратной связи без участия более сильных учителей; и (2) Контролируемая тонкая настройка (SFT), где более слабые модели обучаются на траекториях, извлеченных учителями. Многочисленные эксперименты подтверждают эффективность этого подхода. В режиме самоигры применение PromptCoT 2.0 к модели Qwen3-30B-A3B-Thinking-2507 устанавливает новые рекорды на уровне 30B, с улучшениями на +4,4, +4,8 и +5,3 на AIME 24/25 и HMMT 25, +6,1 и +5,0 на LiveCodeBench v5/v6 и +35 Elo на Codeforces. В режиме SFT обучение модели Qwen2.5-7B-Instruct исключительно на синтетических подсказках повышает точность до 73,1 (AIME 24), 65,6 (AIME 25) и 53,4 (LiveCodeBench v5), превосходя модели, обученные на человеческих или гибридных данных. Анализ дополнительно подтверждает, что PromptCoT 2.0 создает принципиально более сложные и распределенно уникальные задачи. Эти результаты устанавливают синтез подсказок как новое направление для масштабирования рассуждений и позиционируют PromptCoT 2.0 как масштабируемую основу для будущих моделей с открытым исходным кодом. Реализация доступна по адресу https://github.com/inclusionAI/PromptCoT.
English
Large language models (LLMs) are evolving from conversational systems into
strong reasoners for tasks such as Olympiad mathematics and competitive
programming. While scaling parameters and test-time computation has driven
progress, a key bottleneck is the lack of high-quality training problems:
human-curated datasets are costly and limited, while existing synthetic corpora
are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales
into prompt synthesis increases problem difficulty. Building on this, we
present PromptCoT 2.0, a scalable framework that replaces hand-crafted
heuristics with an expectation-maximization (EM) loop, where rationales are
iteratively refined to guide prompt construction. This produces problems that
are both harder and more diverse than prior corpora. The synthetic prompts
support two post-training regimes: (1) Self-Play, where strong models improve
autonomously via verifiable feedback without stronger teachers; and (2)
Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled
traces. Extensive experiments demonstrate the effectiveness of this approach.
In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new
state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME
24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on
Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts
boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5),
surpassing models trained on human or hybrid data. Analyses further confirm
that PromptCoT 2.0 yields fundamentally harder and distributionally distinct
problems. These results establish prompt synthesis as a new axis for scaling
reasoning and position PromptCoT 2.0 as a scalable foundation for future
open-source models. The implementation is available at
https://github.com/inclusionAI/PromptCoT.