ChatPaper.aiChatPaper

오픈소스 추론 모델을 위한 한 가지 결여된 조각: RL에서 짧은 CoT LLM의 콜드 스타트 문제를 완화하기 위한 데이터셋

One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

June 3, 2025
저자: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
cs.AI

초록

공개된 대규모 추론 모델(LRM)인 R1의 출시와 함께, 연구자들은 일반적으로 R1의 긴 사고 연쇄(CoT) 추론을 기반으로 언어 모델을 학습시켜 새로운 LRM을 훈련시킵니다. 기존 연구에서는 LRM의 능력이 직접적인 증류를 통해 재현될 수 있음을 보여주었지만, 기존 모델(예: R1)에 대한 지속적인 의존은 이 분야의 발전에 있어 중요한 한계로 남아 있습니다. 독자적인 LRM 개발을 위한 첫걸음으로, 본 논문은 추론 시간 확장을 위해 훈련되지 않은 LLM을 사용하여 긴 CoT 데이터셋을 구축할 가능성을 탐구합니다. 이를 위해, 우리는 기존의 짧은 CoT LLM을 사용하여 주석이 달린 100K개의 CoT 근거로 구성된 Long CoT Collection 데이터셋을 제시합니다. 우리는 o1의 새로운 추론 전략을 짧은 CoT LLM에 도입하여 더 오래 생각할 수 있도록 하고, 과도한 사고 문제를 더 잘 관리하기 위해 사고 예산에 대한 제어 가능성을 도입하는 파이프라인을 개발했습니다. 우리의 광범위한 분석은 우리의 데이터셋이 R1과 비슷하거나 약간 낮은 품질을 달성함을 검증합니다. 또한, 우리의 실험은 우리의 데이터셋으로 훈련하는 것이 일반적인 추론 능력을 강화할 뿐만 아니라 강화 학습을 위한 강력한 기반을 제공한다는 것을 보여줍니다. 우리의 데이터로 초기화된 모델은 RLVR을 통해 2-3배 더 큰 성능 향상을 달성합니다.
English
With the release of R1, a publicly available large reasoning model (LRM), researchers commonly train new LRMs by training language models on R1's long chain-of-thought (CoT) inferences. While prior works show that LRMs' capabilities can be reproduced through direct distillation, the continued reliance on the existing models (e.g., R1) remains a critical limitation in advancing the field. As a first step toward independent LRM development, this paper explores the possibility of constructing a long CoT dataset with LLMs that are not trained for inference-time scaling. To this end, we present the Long CoT Collection, a dataset of 100K CoT rationales annotated using existing short CoT LLMs. We develop a pipeline that induces o1's novel reasoning strategies into short CoT LLMs, enabling them to think longer and introducing controllability over the thought budget to better manage the overthinking problem. Our extensive analyses validate that our dataset achieves quality comparable to--or slightly below--R1. Furthermore, our experiments demonstrate that training on our dataset not only strengthens general reasoning skills, but also provides a strong foundation for reinforcement learning--models initialized on our data achieve 2-3x larger gains with RLVR.
PDF32June 4, 2025