PromptCoT 2.0: Escalando la Síntesis de Prompts para el Razonamiento de Modelos de Lenguaje de Gran Escala
PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
September 24, 2025
Autores: Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están evolucionando desde sistemas conversacionales hacia razonadores potentes para tareas como las matemáticas olímpicas y la programación competitiva. Si bien el escalado de parámetros y el cómputo en tiempo de prueba han impulsado el progreso, un cuello de botella clave es la falta de problemas de entrenamiento de alta calidad: los conjuntos de datos curados por humanos son costosos y limitados, mientras que los corpus sintéticos existentes suelen ser demasiado fáciles o estrechos. PromptCoT 1.0 demostró que inyectar razonamientos en la síntesis de prompts aumenta la dificultad de los problemas. Basándonos en esto, presentamos PromptCoT 2.0, un marco escalable que reemplaza las heurísticas manuales con un bucle de maximización de expectativas (EM), donde los razonamientos se refinan iterativamente para guiar la construcción de prompts. Esto produce problemas que son tanto más difíciles como más diversos que los corpus anteriores. Los prompts sintéticos soportan dos regímenes de posentrenamiento: (1) Autojuego (Self-Play), donde los modelos fuertes mejoran autónomamente mediante retroalimentación verificable sin necesidad de maestros más potentes; y (2) Ajuste Fino Supervisado (SFT), donde los modelos más débiles aprenden de trazas destiladas por maestros. Experimentos extensos demuestran la efectividad de este enfoque. En autojuego, aplicar PromptCoT 2.0 a Qwen3-30B-A3B-Thinking-2507 establece nuevos resultados de vanguardia a escala de 30B, con mejoras de +4.4, +4.8 y +5.3 en AIME 24/25 y HMMT 25, +6.1 y +5.0 en LiveCodeBench v5/v6, y +35 Elo en Codeforces. En SFT, entrenar Qwen2.5-7B-Instruct únicamente con prompts sintéticos aumenta la precisión a 73.1 (AIME 24), 65.6 (AIME 25) y 53.4 (LiveCodeBench v5), superando a modelos entrenados con datos humanos o híbridos. Los análisis confirman además que PromptCoT 2.0 produce problemas fundamentalmente más difíciles y distribuidos de manera distinta. Estos resultados establecen la síntesis de prompts como un nuevo eje para escalar el razonamiento y posicionan a PromptCoT 2.0 como una base escalable para futuros modelos de código abierto. La implementación está disponible en https://github.com/inclusionAI/PromptCoT.
English
Large language models (LLMs) are evolving from conversational systems into
strong reasoners for tasks such as Olympiad mathematics and competitive
programming. While scaling parameters and test-time computation has driven
progress, a key bottleneck is the lack of high-quality training problems:
human-curated datasets are costly and limited, while existing synthetic corpora
are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales
into prompt synthesis increases problem difficulty. Building on this, we
present PromptCoT 2.0, a scalable framework that replaces hand-crafted
heuristics with an expectation-maximization (EM) loop, where rationales are
iteratively refined to guide prompt construction. This produces problems that
are both harder and more diverse than prior corpora. The synthetic prompts
support two post-training regimes: (1) Self-Play, where strong models improve
autonomously via verifiable feedback without stronger teachers; and (2)
Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled
traces. Extensive experiments demonstrate the effectiveness of this approach.
In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new
state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME
24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on
Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts
boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5),
surpassing models trained on human or hybrid data. Analyses further confirm
that PromptCoT 2.0 yields fundamentally harder and distributionally distinct
problems. These results establish prompt synthesis as a new axis for scaling
reasoning and position PromptCoT 2.0 as a scalable foundation for future
open-source models. The implementation is available at
https://github.com/inclusionAI/PromptCoT.