Un pezzo mancante per i modelli di ragionamento open-source: un dataset per mitigare il problema dell'avvio a freddo nei modelli linguistici a corta catena di pensiero (CoT) nell'apprendimento per rinforzo (RL).
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
June 3, 2025
Autori: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
cs.AI
Abstract
Con il rilascio di R1, un modello di ragionamento su larga scala (LRM) disponibile pubblicamente, i ricercatori comunemente addestrano nuovi LRM allenando modelli linguistici sulle lunghe inferenze a catena di pensiero (CoT) di R1. Sebbene lavori precedenti dimostrino che le capacità degli LRM possano essere riprodotte attraverso la distillazione diretta, la continua dipendenza dai modelli esistenti (ad esempio, R1) rimane una limitazione critica per l'avanzamento del campo. Come primo passo verso lo sviluppo indipendente di LRM, questo articolo esplora la possibilità di costruire un dataset di CoT lunghi utilizzando LLM che non sono addestrati per il ridimensionamento al momento dell'inferenza. A tal fine, presentiamo la Long CoT Collection, un dataset di 100K razionalità CoT annotate utilizzando LLM esistenti per CoT brevi. Sviluppiamo una pipeline che introduce le nuove strategie di ragionamento di o1 negli LLM per CoT brevi, consentendo loro di pensare più a lungo e introducendo la controllabilità sul budget di pensiero per gestire meglio il problema del sovrapensiero. Le nostre analisi estensive confermano che il nostro dataset raggiunge una qualità comparabile—o leggermente inferiore—a quella di R1. Inoltre, i nostri esperimenti dimostrano che l'addestramento sul nostro dataset non solo rafforza le capacità di ragionamento generale, ma fornisce anche una solida base per l'apprendimento per rinforzo—i modelli inizializzati sui nostri dati raggiungono guadagni 2-3 volte maggiori con RLVR.
English
With the release of R1, a publicly available large reasoning model (LRM),
researchers commonly train new LRMs by training language models on R1's long
chain-of-thought (CoT) inferences. While prior works show that LRMs'
capabilities can be reproduced through direct distillation, the continued
reliance on the existing models (e.g., R1) remains a critical limitation in
advancing the field. As a first step toward independent LRM development, this
paper explores the possibility of constructing a long CoT dataset with LLMs
that are not trained for inference-time scaling. To this end, we present the
Long CoT Collection, a dataset of 100K CoT rationales annotated using existing
short CoT LLMs. We develop a pipeline that induces o1's novel reasoning
strategies into short CoT LLMs, enabling them to think longer and introducing
controllability over the thought budget to better manage the overthinking
problem. Our extensive analyses validate that our dataset achieves quality
comparable to--or slightly below--R1. Furthermore, our experiments demonstrate
that training on our dataset not only strengthens general reasoning skills, but
also provides a strong foundation for reinforcement learning--models
initialized on our data achieve 2-3x larger gains with RLVR.