Een ontbrekend stuk voor open-source redeneermodellen: Een dataset om het koude-startprobleem van korte CoT LLM's in RL te verlichten
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
June 3, 2025
Auteurs: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
cs.AI
Samenvatting
Met de release van R1, een publiek beschikbaar groot redeneermodel (LRM),
trainen onderzoekers vaak nieuwe LRM's door taalmodellen te trainen op R1's lange
keten-van-gedachten (CoT) redeneringen. Hoewel eerder werk aantoont dat de
mogelijkheden van LRM's gereproduceerd kunnen worden via directe distillatie,
blijft de voortdurende afhankelijkheid van bestaande modellen (bijv. R1) een
kritieke beperking in de vooruitgang van het veld. Als eerste stap naar
onafhankelijke LRM-ontwikkeling onderzoekt dit artikel de mogelijkheid om een
lange CoT-dataset te construeren met LLM's die niet getraind zijn voor schaling
tijdens inferentie. Hiertoe presenteren we de Long CoT Collection, een dataset
van 100K CoT-redeneringen geannoteerd met behulp van bestaande korte CoT-LLM's.
We ontwikkelen een pijplijn die o1's nieuwe redeneerstrategieën introduceert in
korte CoT-LLM's, waardoor ze langer kunnen nadenken en controleerbaarheid over
het denkbudget wordt geïntroduceerd om het overdenkprobleem beter te beheersen.
Onze uitgebreide analyses valideren dat onze dataset een kwaliteit bereikt die
vergelijkbaar is met--of iets lager dan--R1. Bovendien tonen onze experimenten
aan dat trainen op onze dataset niet alleen algemene redeneervaardigheden
versterkt, maar ook een sterke basis biedt voor reinforcement learning--modellen
geïnitialiseerd op onze data behalen 2-3x grotere winsten met RLVR.
English
With the release of R1, a publicly available large reasoning model (LRM),
researchers commonly train new LRMs by training language models on R1's long
chain-of-thought (CoT) inferences. While prior works show that LRMs'
capabilities can be reproduced through direct distillation, the continued
reliance on the existing models (e.g., R1) remains a critical limitation in
advancing the field. As a first step toward independent LRM development, this
paper explores the possibility of constructing a long CoT dataset with LLMs
that are not trained for inference-time scaling. To this end, we present the
Long CoT Collection, a dataset of 100K CoT rationales annotated using existing
short CoT LLMs. We develop a pipeline that induces o1's novel reasoning
strategies into short CoT LLMs, enabling them to think longer and introducing
controllability over the thought budget to better manage the overthinking
problem. Our extensive analyses validate that our dataset achieves quality
comparable to--or slightly below--R1. Furthermore, our experiments demonstrate
that training on our dataset not only strengthens general reasoning skills, but
also provides a strong foundation for reinforcement learning--models
initialized on our data achieve 2-3x larger gains with RLVR.