ChatPaper.aiChatPaper

Un pezzo mancante per i modelli di ragionamento open-source: un dataset per mitigare il problema dell'avvio a freddo nei modelli linguistici a corta catena di pensiero (CoT) nell'apprendimento per rinforzo (RL).

One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

June 3, 2025
Autori: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
cs.AI

Abstract

Con il rilascio di R1, un modello di ragionamento su larga scala (LRM) disponibile pubblicamente, i ricercatori comunemente addestrano nuovi LRM allenando modelli linguistici sulle lunghe inferenze a catena di pensiero (CoT) di R1. Sebbene lavori precedenti dimostrino che le capacità degli LRM possano essere riprodotte attraverso la distillazione diretta, la continua dipendenza dai modelli esistenti (ad esempio, R1) rimane una limitazione critica per l'avanzamento del campo. Come primo passo verso lo sviluppo indipendente di LRM, questo articolo esplora la possibilità di costruire un dataset di CoT lunghi utilizzando LLM che non sono addestrati per il ridimensionamento al momento dell'inferenza. A tal fine, presentiamo la Long CoT Collection, un dataset di 100K razionalità CoT annotate utilizzando LLM esistenti per CoT brevi. Sviluppiamo una pipeline che introduce le nuove strategie di ragionamento di o1 negli LLM per CoT brevi, consentendo loro di pensare più a lungo e introducendo la controllabilità sul budget di pensiero per gestire meglio il problema del sovrapensiero. Le nostre analisi estensive confermano che il nostro dataset raggiunge una qualità comparabile—o leggermente inferiore—a quella di R1. Inoltre, i nostri esperimenti dimostrano che l'addestramento sul nostro dataset non solo rafforza le capacità di ragionamento generale, ma fornisce anche una solida base per l'apprendimento per rinforzo—i modelli inizializzati sui nostri dati raggiungono guadagni 2-3 volte maggiori con RLVR.
English
With the release of R1, a publicly available large reasoning model (LRM), researchers commonly train new LRMs by training language models on R1's long chain-of-thought (CoT) inferences. While prior works show that LRMs' capabilities can be reproduced through direct distillation, the continued reliance on the existing models (e.g., R1) remains a critical limitation in advancing the field. As a first step toward independent LRM development, this paper explores the possibility of constructing a long CoT dataset with LLMs that are not trained for inference-time scaling. To this end, we present the Long CoT Collection, a dataset of 100K CoT rationales annotated using existing short CoT LLMs. We develop a pipeline that induces o1's novel reasoning strategies into short CoT LLMs, enabling them to think longer and introducing controllability over the thought budget to better manage the overthinking problem. Our extensive analyses validate that our dataset achieves quality comparable to--or slightly below--R1. Furthermore, our experiments demonstrate that training on our dataset not only strengthens general reasoning skills, but also provides a strong foundation for reinforcement learning--models initialized on our data achieve 2-3x larger gains with RLVR.
PDF42June 4, 2025