CoDiQ: Escalonamento em Tempo de Teste para Geração Controlada de Perguntas Difíceis

Resumo

Os Grandes Modelos de Raciocínio (LRMs) beneficiam-se substancialmente do treinamento com questões desafiadoras de nível competitivo. No entanto, os métodos existentes de síntese automática de questões carecem de controlo preciso de dificuldade, incorrem em elevados custos computacionais e lutam para gerar questões de nível competitivo em escala. Neste artigo, propomos o CoDiQ (Geração de Questões Difíceis Controlável), uma nova estrutura que permite um controlo de dificuldade de granularidade fina através de escalonamento em tempo de teste, garantindo ao mesmo tempo a resolubilidade das questões. Especificamente, primeiro, identificamos uma tendência de escalonamento em tempo de teste (o aumento do orçamento de *tokens* de raciocínio aumenta a dificuldade, mas reduz a resolubilidade) e as propriedades intrínsecas que definem o limite superior da capacidade de um modelo para gerar questões válidas e de alta dificuldade. Em seguida, desenvolvemos o CoDiQ-Generator a partir do Qwen3-8B, que melhora o limite superior da geração de questões difíceis, tornando-o particularmente adequado para a construção de questões desafiadoras. Com base na estrutura CoDiQ, construímos o CoDiQ-Corpus (44 mil sequências de questões de nível competitivo). Avaliações humanas mostram que estas questões são significativamente mais desafiadoras do que as do LiveCodeBench/AIME, mantendo mais de 82% de resolubilidade. O treino de LRMs no CoDiQ-Corpus melhora substancialmente o desempenho do raciocínio, verificando que a escalabilidade de questões de treino com dificuldade controlada aumenta as capacidades de raciocínio. Disponibilizamos em código aberto o CoDiQ-Corpus, o CoDiQ-Generator e as implementações para apoiar a investigação relacionada.

English

Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.

CoDiQ: Escalonamento em Tempo de Teste para Geração Controlada de Perguntas Difíceis

CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

Resumo

Support