CoDiQ: Scalabilità al Momento del Test per la Generazione Controllabile di Domande Difficili

Abstract

I Large Reasoning Model (LRM) traggono sostanziali benefici dall'addestramento su domande complesse di livello competitivo. Tuttavia, i metodi automatizzati esistenti per la sintesi di domande mancano di un controllo preciso della difficoltà, comportano elevati costi computazionali e faticano a generare domande di livello competitivo su larga scala. In questo articolo, proponiamo CoDiQ (Controllable Difficult Question Generation), un nuovo framework che consente un controllo fine della difficoltà attraverso il ridimensionamento al momento del test, garantendo al contempo la risolvibilità delle domande. Nello specifico, in primo luogo identifichiamo una tendenza nel ridimensionamento al momento del test (un budget esteso di token per il ragionamento aumenta la difficoltà ma riduce la risolvibilità) e le proprietà intrinseche che definiscono il limite superiore della capacità di un modello di generare domande valide e ad alta difficoltà. Successivamente, sviluppiamo CoDiQ-Generator a partire da Qwen3-8B, che migliora il limite superiore per la generazione di domande difficili, rendendolo particolarmente adatto per la costruzione di quesiti impegnativi. Basandoci sul framework CoDiQ, costruiamo CoDiQ-Corpus (44K sequenze di domande di livello competitivo). Le valutazioni umane mostrano che queste domande sono significativamente più impegnative di quelle di LiveCodeBench/AIME, pur mantenendo una risolvibilità superiore all'82%. L'addestramento di LRM su CoDiQ-Corpus migliora sostanzialmente le prestazioni di ragionamento, verificando che scalare domande di addestramento con difficoltà controllata potenzia le capacità inferenziali. Rendiamo open-source CoDiQ-Corpus, CoDiQ-Generator e le implementazioni per supportare la ricerca correlata.

English

Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.

CoDiQ: Scalabilità al Momento del Test per la Generazione Controllabile di Domande Difficili

CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

Abstract

Support