CoDiQ: Масштабирование во время тестирования для управляемой генерации сложных вопросов

Аннотация

Крупные модели рассуждений (LRM) существенно выигрывают от обучения на сложных задачах уровня соревнований. Однако существующие автоматизированные методы синтеза вопросов не обеспечивают точного контроля сложности, требуют высоких вычислительных затрат и не позволяют массово генерировать вопросы конкурсного уровня. В данной статье мы предлагаем CoDiQ (Controllable Difficult Question Generation) — новую структуру, обеспечивающую детальный контроль сложности через масштабирование на этапе тестирования при гарантированной решаемости задач. Конкретно: сначала мы выявляем тенденцию масштабирования при тестировании (увеличение бюджета токенов для рассуждений повышает сложность, но снижает решаемость) и внутренние свойства, определяющие верхнюю границу способности модели генерировать корректные задачи высокой сложности. Затем мы разрабатываем CoDiQ-Generator на основе Qwen3-8B, который повышает верхний предел генерации сложных вопросов, что делает его особенно подходящим для создания трудных задач. На основе структуры CoDiQ мы строим CoDiQ-Corpus (44 тыс. последовательностей вопросов уровня соревнований). Экспертная оценка показывает, что эти вопросы значительно сложнее аналогов из LiveCodeBench/AIME при сохранении решаемости свыше 82%. Обучение LRM на CoDiQ-Corpus существенно улучшает показатели рассуждений, подтверждая, что масштабирование тренировочных вопросов с контролируемой сложностью усиливает reasoning-способности. Мы открываем исходные коды CoDiQ-Corpus, CoDiQ-Generator и реализаций для поддержки связанных исследований.

English

Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.

CoDiQ: Масштабирование во время тестирования для управляемой генерации сложных вопросов

CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

Аннотация

Support