Une pièce manquante pour les modèles de raisonnement open-source : un jeu de données pour atténuer le démarrage à froid des LLMs à chaînes de pensée courtes en apprentissage par renforcement
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
June 3, 2025
Auteurs: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
cs.AI
Résumé
Avec la sortie de R1, un modèle de raisonnement à grande échelle (LRM) accessible au public, les chercheurs entraînent couramment de nouveaux LRM en formant des modèles de langage sur les longues chaînes de raisonnement (CoT) de R1. Bien que des travaux antérieurs montrent que les capacités des LRM peuvent être reproduites par distillation directe, la dépendance continue aux modèles existants (par exemple, R1) reste une limitation critique pour l'avancement du domaine. Comme première étape vers le développement indépendant de LRM, cet article explore la possibilité de construire un ensemble de données de longues CoT avec des modèles de langage (LLM) qui ne sont pas entraînés pour une mise à l'échelle au moment de l'inférence. À cette fin, nous présentons la Long CoT Collection, un ensemble de données de 100 000 raisonnements CoT annotés à l'aide de LLM à courtes CoT existants. Nous développons un pipeline qui intègre les nouvelles stratégies de raisonnement de o1 dans des LLM à courtes CoT, leur permettant de raisonner plus longtemps et introduisant une contrôlabilité sur le budget de pensée pour mieux gérer le problème de surréflexion. Nos analyses approfondies valident que notre ensemble de données atteint une qualité comparable à—ou légèrement inférieure à—celle de R1. De plus, nos expériences démontrent que l'entraînement sur notre ensemble de données renforce non seulement les compétences générales de raisonnement, mais fournit également une base solide pour l'apprentissage par renforcement—les modèles initialisés sur nos données obtiennent des gains 2 à 3 fois plus importants avec RLVR.
English
With the release of R1, a publicly available large reasoning model (LRM),
researchers commonly train new LRMs by training language models on R1's long
chain-of-thought (CoT) inferences. While prior works show that LRMs'
capabilities can be reproduced through direct distillation, the continued
reliance on the existing models (e.g., R1) remains a critical limitation in
advancing the field. As a first step toward independent LRM development, this
paper explores the possibility of constructing a long CoT dataset with LLMs
that are not trained for inference-time scaling. To this end, we present the
Long CoT Collection, a dataset of 100K CoT rationales annotated using existing
short CoT LLMs. We develop a pipeline that induces o1's novel reasoning
strategies into short CoT LLMs, enabling them to think longer and introducing
controllability over the thought budget to better manage the overthinking
problem. Our extensive analyses validate that our dataset achieves quality
comparable to--or slightly below--R1. Furthermore, our experiments demonstrate
that training on our dataset not only strengthens general reasoning skills, but
also provides a strong foundation for reinforcement learning--models
initialized on our data achieve 2-3x larger gains with RLVR.