CoDiQ : Mise à l'échelle au moment du test pour la génération contrôlée de questions difficiles
CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation
February 2, 2026
papers.authors: Zhongyuan Peng, Caijun Xu, Changyi Xiao, Shibo Hong, Eli Zhang, Stephen Huang, Yixin Cao
cs.AI
papers.abstract
Les grands modèles de raisonnement (LRM) bénéficient considérablement d'un entraînement sur des questions difficiles de niveau concours. Cependant, les méthodes existantes de synthèse automatisée de questions manquent de contrôle précis de la difficulté, entraînent des coûts de calcul élevés et peinent à générer à grande échelle des questions de niveau compétition. Dans cet article, nous proposons CoDiQ (Génération de Questions à Difficulté Contrôlable), un nouveau cadre permettant un contrôle fin de la difficulté via un ajustement au moment du test tout en garantissant la résolubilité des questions. Plus précisément, nous identifions d'abord une tendance d'ajustement au moment du test (un budget de tokens de raisonnement étendu augmente la difficulté mais réduit la résolubilité) et les propriétés intrinsèques définissant la limite supérieure de la capacité d'un modèle à générer des questions valides et difficiles. Ensuite, nous développons CoDiQ-Generator à partir de Qwen3-8B, qui améliore la limite supérieure de génération de questions difficiles, le rendant particulièrement adapté à la construction de questions complexes. Sur la base du cadre CoDiQ, nous constituons CoDiQ-Corpus (44 000 séquences de questions de niveau compétition). Les évaluations humaines montrent que ces questions sont significativement plus difficiles que celles de LiveCodeBench/AIME tout en maintenant une résolubilité supérieure à 82 %. L'entraînement de LRM sur CoDiQ-Corpus améliore substantiellement les performances en raisonnement, confirmant qu'augmenter le nombre de questions d'entraînement à difficulté contrôlée renforce les capacités de raisonnement. Nous ouvrons en accès libre CoDiQ-Corpus, CoDiQ-Generator et les implémentations pour soutenir la recherche connexe.
English
Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.