CoDiQ: 制御可能な難易度問題生成のためのテスト時スケーリング
CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation
February 2, 2026
著者: Zhongyuan Peng, Caijun Xu, Changyi Xiao, Shibo Hong, Eli Zhang, Stephen Huang, Yixin Cao
cs.AI
要旨
大規模推論モデル(LRM)は、難易度の高い競技レベルの問題を学習データとして用いることで、その性能が大幅に向上する。しかし、既存の自動問題生成手法は、難易度を精密に制御できない、計算コストが高い、競技レベルの問題を大規模に生成するのが困難である、といった課題を抱えている。本論文では、CoDiQ(Controllable Difficult Question Generation)という新しいフレームワークを提案する。これは、テスト時スケーリングによるきめ細かい難易度制御を可能にするとともに、問題の解決可能性を保証するものである。具体的には、まず、テスト時スケーリングの傾向(推論トークン予算の拡大は難易度を高めるが解決可能性を低下させる)と、有効な高難度問題を生成するモデル能力の上限を定義する内在的特性を明らかにする。次に、Qwen3-8Bを基盤としたCoDiQ-Generatorを開発し、難問生成の上限を引き上げることで、特に挑戦的な問題の構築に適したモデルを実現する。CoDiQフレームワークに基づき、我々はCoDiQ-Corpus(競技級の問題シーケンス44K件)を構築した。人間による評価では、これらの問題がLiveCodeBenchやAIMEよりも有意に難易度が高く、かつ82%以上の解決可能性を有することが示された。CoDiQ-CorpusでLRMを学習させることで、推論性能が大幅に向上し、制御された難易度の学習データをスケールさせることが推論能力の強化に有効であることが検証された。関連研究の発展を支援するため、CoDiQ-Corpus、CoDiQ-Generator、および実装コードを公開する。
English
Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.