ChatPaper.aiChatPaper

CoDiQ: Skalierung zur Testzeit für die kontrollierte Erzeugung schwieriger Fragen

CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

February 2, 2026
papers.authors: Zhongyuan Peng, Caijun Xu, Changyi Xiao, Shibo Hong, Eli Zhang, Stephen Huang, Yixin Cao
cs.AI

papers.abstract

Große Reasoning-Modelle (LRMs) profitieren erheblich vom Training mit herausfordernden Wettbewerbsfragen. Bisherige automatisierte Methoden zur Fragengenerierung bieten jedoch keine präzise Schwierigkeitskontrolle, verursachen hohe Rechenkosten und scheitern daran, Wettbewerbsfragen in großem Maßstab zu erzeugen. In diesem Artikel stellen wir CoDiQ (Controllable Difficult Question Generation) vor, einen neuartigen Rahmen, der eine feingranulare Schwierigkeitssteuerung durch Test-Time-Scaling ermöglicht und gleichzeitig die Lösbarkeit der Fragen gewährleistet. Konkret identifizieren wir erstens eine Test-Time-Scaling-Tendenz (ein erweiterter Reasoning-Token-Budget erhöht die Schwierigkeit, verringert aber die Lösbarkeit) und die intrinsischen Eigenschaften, die die Obergrenze der Fähigkeit eines Modells definieren, gültige Hochschwierigkeitsfragen zu generieren. Anschließend entwickeln wir CoDiQ-Generator auf Basis von Qwen3-8B, der die Obergrenze für die Generierung schwieriger Fragen anhebt und es besonders gut für die Erstellung anspruchsvoller Fragen eignet. Aufbauend auf dem CoDiQ-Rahmen erstellen wir CoDiQ-Corpus (44.000 Wettbewerbs-Fragensequenzen). Humanevaluationen zeigen, dass diese Fragen signifikant schwieriger sind als LiveCodeBench/AIME bei über 82% Lösbarkeit. Das Training von LRMs auf CoDiQ-Corpus verbessert die Reasoning-Leistung erheblich, was bestätigt, dass die Skalierung von Trainingfragen mit kontrollierter Schwierigkeit die Reasoning-Fähigkeiten steigert. Wir veröffentlichen CoDiQ-Corpus, CoDiQ-Generator und Implementierungen als Open Source, um verwandte Forschung zu unterstützen.
English
Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.
PDF73February 7, 2026