Une pièce manquante pour les modèles de raisonnement open-source : un jeu de données pour atténuer le démarrage à froid des LLMs à chaînes de pensée courtes en apprentissage par renforcement

papers.abstract

Avec la sortie de R1, un modèle de raisonnement à grande échelle (LRM) accessible au public, les chercheurs entraînent couramment de nouveaux LRM en formant des modèles de langage sur les longues chaînes de raisonnement (CoT) de R1. Bien que des travaux antérieurs montrent que les capacités des LRM peuvent être reproduites par distillation directe, la dépendance continue aux modèles existants (par exemple, R1) reste une limitation critique pour l'avancement du domaine. Comme première étape vers le développement indépendant de LRM, cet article explore la possibilité de construire un ensemble de données de longues CoT avec des modèles de langage (LLM) qui ne sont pas entraînés pour une mise à l'échelle au moment de l'inférence. À cette fin, nous présentons la Long CoT Collection, un ensemble de données de 100 000 raisonnements CoT annotés à l'aide de LLM à courtes CoT existants. Nous développons un pipeline qui intègre les nouvelles stratégies de raisonnement de o1 dans des LLM à courtes CoT, leur permettant de raisonner plus longtemps et introduisant une contrôlabilité sur le budget de pensée pour mieux gérer le problème de surréflexion. Nos analyses approfondies valident que notre ensemble de données atteint une qualité comparable à—ou légèrement inférieure à—celle de R1. De plus, nos expériences démontrent que l'entraînement sur notre ensemble de données renforce non seulement les compétences générales de raisonnement, mais fournit également une base solide pour l'apprentissage par renforcement—les modèles initialisés sur nos données obtiennent des gains 2 à 3 fois plus importants avec RLVR.

English

With the release of R1, a publicly available large reasoning model (LRM), researchers commonly train new LRMs by training language models on R1's long chain-of-thought (CoT) inferences. While prior works show that LRMs' capabilities can be reproduced through direct distillation, the continued reliance on the existing models (e.g., R1) remains a critical limitation in advancing the field. As a first step toward independent LRM development, this paper explores the possibility of constructing a long CoT dataset with LLMs that are not trained for inference-time scaling. To this end, we present the Long CoT Collection, a dataset of 100K CoT rationales annotated using existing short CoT LLMs. We develop a pipeline that induces o1's novel reasoning strategies into short CoT LLMs, enabling them to think longer and introducing controllability over the thought budget to better manage the overthinking problem. Our extensive analyses validate that our dataset achieves quality comparable to--or slightly below--R1. Furthermore, our experiments demonstrate that training on our dataset not only strengthens general reasoning skills, but also provides a strong foundation for reinforcement learning--models initialized on our data achieve 2-3x larger gains with RLVR.

Une pièce manquante pour les modèles de raisonnement open-source : un jeu de données pour atténuer le démarrage à froid des LLMs à chaînes de pensée courtes en apprentissage par renforcement

One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

papers.abstract

Support