ChatPaper.aiChatPaper

CoDiQ: 난이도 조절형 어려운 질문 생성을 위한 테스트 타임 스케일링

CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation

February 2, 2026
저자: Zhongyuan Peng, Caijun Xu, Changyi Xiao, Shibo Hong, Eli Zhang, Stephen Huang, Yixin Cao
cs.AI

초록

대규모 추론 모델(LRM)은 도전적인 경쟁 수준 문제에 대한 훈련을 통해 상당한 이점을 얻습니다. 그러나 기존의 자동화된 문제 생성 방법은 정밀한 난이도 제어가 부족하고, 높은 계산 비용이 발생하며, 대규모로 경쟁 수준 문제를 생성하는 데 어려움을 겪습니다. 본 논문에서는 테스트 타임 스케일링을 통한 세분화된 난이도 제어와 문제 해결 가능성 보장을 가능하게 하는 새로운 프레임워크인 CoDiQ(Controllable Difficult Question Generation)를 제안합니다. 구체적으로, 먼저 테스트 타임 스케일링 경향(추론 토큰 예산 확장은 난이도를 높이지만 해결 가능성을 낮춤)과 모델이 유효한 고난이도 문제를 생성할 수 있는 능력의 상한을 정의하는 내재적 속성을 식별합니다. 그런 다음 Qwen3-8B로부터 CoDiQ-Generator를 개발하여, 어려운 문제 생성의 상한을 향상시키고 특히 도전적인 문제 구성에 적합하도록 만듭니다. CoDiQ 프레임워크를 기반으로 CoDiQ-Corpus(44K 규모의 경쟁 수준 문제 시퀀스)를 구축합니다. 인간 평가 결과, 이 문제들이 LiveCodeBench/AIME보다 훨씬 더 도전적이면서 82% 이상의 해결 가능성을 보여줍니다. CoDiQ-Corpus로 LRM을 훈련하면 추론 성능이 크게 향상되어, 난이도가 제어된 훈련 문제를 확장하는 것이 추론 능력을 강화함을 검증합니다. 관련 연구를 지원하기 위해 CoDiQ-Corpus, CoDiQ-Generator 및 구현 코드를 오픈소스로 공개합니다.
English
Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.
PDF73February 7, 2026