CoDiQ: Test-Time Schaling voor Beheersbare Generatie van Moeilijke Vragen

Samenvatting

Grote Redeneermodellen (LRM's) hebben aanzienlijk baat bij training op uitdagende vragen van wedstrijdniveau. Bestaande geautomatiseerde methoden voor vraaggeneratie ontberen echter een precieze moeilijkheidscontrole, vergen hoge computationele kosten en slagen er niet in om op grote schaal vragen van wedstrijdniveau te genereren. In dit artikel stellen we CoDiQ (Controllable Difficult Question Generation) voor, een nieuw raamwerk dat fijnmazige moeilijkheidscontrole mogelijk maakt via test-time scaling, waarbij tegelijkertijd de oplosbaarheid van vragen gewaarborgd wordt. Concreet identificeren we eerst een test-time scaling tendens (een uitgebreid redeneertokenbudget verhoogt de moeilijkheidsgraad maar vermindert de oplosbaarheid) en de intrinsieke eigenschappen die de bovengrens definiëren van het vermogen van een model om geldige, hoogcomplexe vragen te genereren. Vervolgens ontwikkelen we CoDiQ-Generator op basis van Qwen3-8B, wat de bovengrens voor het genereren van moeilijke vragen verhoogt en het model bijzonder geschikt maakt voor het construeren van uitdagende vragen. Gebaseerd op het CoDiQ-raamwerk, bouwen we CoDiQ-Corpus (44K vraagsequenties van wedstrijdkwaliteit). Menselijke evaluaties tonen aan dat deze vragen aanzienlijk uitdagender zijn dan die van LiveCodeBench/AIME, met een oplosbaarheidspercentage van meer dan 82%. Het trainen van LRM's op CoDiQ-Corpus verbetert de redeneerprestaties aanzienlijk, wat bevestigt dat het schalen van trainingsvragen met gecontroleerde moeilijkheidsgraad de redeneervaardigheden versterkt. We maken CoDiQ-Corpus, CoDiQ-Generator en implementaties open source om gerelateerd onderzoek te ondersteunen.

English

Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.

CoDiQ: Test-Time Schaling voor Beheersbare Generatie van Moeilijke Vragen

CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

Samenvatting

Support