Una pieza faltante para los modelos de razonamiento de código abierto: un conjunto de datos para mitigar el arranque en frío de LLMs con cadenas de pensamiento cortas en RL.
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
June 3, 2025
Autores: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
cs.AI
Resumen
Con el lanzamiento de R1, un modelo de razonamiento a gran escala (LRM, por sus siglas en inglés) disponible públicamente, los investigadores comúnmente entrenan nuevos LRMs mediante el entrenamiento de modelos de lenguaje en las largas cadenas de pensamiento (CoT, por sus siglas en inglés) inferidas por R1. Si bien trabajos previos muestran que las capacidades de los LRMs pueden reproducirse mediante destilación directa, la dependencia continua de los modelos existentes (por ejemplo, R1) sigue siendo una limitación crítica para el avance del campo. Como primer paso hacia el desarrollo independiente de LRMs, este artículo explora la posibilidad de construir un conjunto de datos de CoT largos utilizando LLMs que no están entrenados para escalar en tiempo de inferencia. Con este fin, presentamos la Colección de CoT Largos, un conjunto de datos de 100K razonamientos CoT anotados utilizando LLMs de CoT cortos existentes. Desarrollamos una canalización que introduce las nuevas estrategias de razonamiento de o1 en LLMs de CoT cortos, permitiéndoles pensar más tiempo e introduciendo controlabilidad sobre el presupuesto de pensamiento para gestionar mejor el problema de sobrepensar. Nuestros extensos análisis validan que nuestro conjunto de datos alcanza una calidad comparable a—o ligeramente inferior a—la de R1. Además, nuestros experimentos demuestran que el entrenamiento en nuestro conjunto de datos no solo fortalece las habilidades de razonamiento general, sino que también proporciona una base sólida para el aprendizaje por refuerzo—los modelos inicializados con nuestros datos logran ganancias 2-3 veces mayores con RLVR.
English
With the release of R1, a publicly available large reasoning model (LRM),
researchers commonly train new LRMs by training language models on R1's long
chain-of-thought (CoT) inferences. While prior works show that LRMs'
capabilities can be reproduced through direct distillation, the continued
reliance on the existing models (e.g., R1) remains a critical limitation in
advancing the field. As a first step toward independent LRM development, this
paper explores the possibility of constructing a long CoT dataset with LLMs
that are not trained for inference-time scaling. To this end, we present the
Long CoT Collection, a dataset of 100K CoT rationales annotated using existing
short CoT LLMs. We develop a pipeline that induces o1's novel reasoning
strategies into short CoT LLMs, enabling them to think longer and introducing
controllability over the thought budget to better manage the overthinking
problem. Our extensive analyses validate that our dataset achieves quality
comparable to--or slightly below--R1. Furthermore, our experiments demonstrate
that training on our dataset not only strengthens general reasoning skills, but
also provides a strong foundation for reinforcement learning--models
initialized on our data achieve 2-3x larger gains with RLVR.