ChatPaper.aiChatPaper

CoDiQ: Escalado en Tiempo de Prueba para la Generación Controlada de Preguntas Difíciles

CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

February 2, 2026
Autores: Zhongyuan Peng, Caijun Xu, Changyi Xiao, Shibo Hong, Eli Zhang, Stephen Huang, Yixin Cao
cs.AI

Resumen

Los Grandes Modelos de Razonamiento (LRM) se benefician sustancialmente del entrenamiento con preguntas desafiantes de nivel competitivo. Sin embargo, los métodos automatizados existentes para la síntesis de preguntas carecen de un control preciso de la dificultad, incurren en altos costes computacionales y tienen dificultades para generar preguntas de nivel competitivo a gran escala. En este artículo, proponemos CoDiQ (Generación de Preguntas Difíciles Controlables), un marco novedoso que permite un control de dificultad de grano fino mediante escalado en tiempo de prueba, garantizando al mismo tiempo la capacidad de resolución de las preguntas. Específicamente, primero identificamos una tendencia de escalado en tiempo de prueba (el presupuesto de tokens de razonamiento extendido aumenta la dificultad pero reduce la capacidad de resolución) y las propiedades intrínsecas que definen el límite superior de la capacidad de un modelo para generar preguntas válidas y de alta dificultad. Luego, desarrollamos CoDiQ-Generator a partir de Qwen3-8B, que mejora el límite superior de la generación de preguntas difíciles, haciéndolo particularmente adecuado para la construcción de preguntas desafiantes. Basándonos en el marco CoDiQ, construimos CoDiQ-Corpus (44K secuencias de preguntas de grado competitivo). Las evaluaciones humanas muestran que estas preguntas son significativamente más desafiantes que las de LiveCodeBench/AIME, con más del 82% de capacidad de resolución. El entrenamiento de LRM en CoDiQ-Corpus mejora sustancialmente el rendimiento del razonamiento, verificando que escalar preguntas de entrenamiento con dificultad controlada mejora las capacidades de razonamiento. Liberamos como código abierto CoDiQ-Corpus, CoDiQ-Generator y las implementaciones para apoyar la investigación relacionada.
English
Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.
PDF73February 7, 2026