ChatPaper.aiChatPaper

Ein fehlendes Puzzleteil für Open-Source-Modelle des logischen Schließens: Ein Datensatz zur Milderung des Kaltstartproblems bei kurzschrittigen CoT-LLMs in RL

One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

June 3, 2025
Autoren: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
cs.AI

Zusammenfassung

Mit der Veröffentlichung von R1, einem öffentlich zugänglichen großen Reasoning-Modell (LRM), trainieren Forscher häufig neue LRMs, indem sie Sprachmodelle auf den langen Chain-of-Thought (CoT)-Schlussfolgerungen von R1 trainieren. Während frühere Arbeiten zeigen, dass die Fähigkeiten von LRMs durch direkte Destillation reproduziert werden können, bleibt die fortgesetzte Abhängigkeit von bestehenden Modellen (z. B. R1) eine kritische Einschränkung für den Fortschritt in diesem Bereich. Als ersten Schritt zur unabhängigen Entwicklung von LRMs untersucht dieses Papier die Möglichkeit, einen langen CoT-Datensatz mit LLMs zu konstruieren, die nicht für Inferenzzeit-Skalierung trainiert sind. Zu diesem Zweck präsentieren wir die Long CoT Collection, einen Datensatz von 100K CoT-Begründungen, die mit bestehenden kurzen CoT-LLMs annotiert wurden. Wir entwickeln eine Pipeline, die die neuartigen Reasoning-Strategien von o1 in kurze CoT-LLMs einbringt, wodurch diese länger denken können und eine Kontrolle über das Gedankenbudget eingeführt wird, um das Problem des Überdenkens besser zu bewältigen. Unsere umfangreichen Analysen bestätigen, dass unser Datensatz eine Qualität erreicht, die vergleichbar mit – oder leicht unter – der von R1 liegt. Darüber hinaus zeigen unsere Experimente, dass das Training auf unserem Datensatz nicht nur die allgemeinen Reasoning-Fähigkeiten stärkt, sondern auch eine solide Grundlage für Reinforcement Learning bietet – Modelle, die auf unseren Daten initialisiert werden, erzielen 2-3 Mal größere Gewinne mit RLVR.
English
With the release of R1, a publicly available large reasoning model (LRM), researchers commonly train new LRMs by training language models on R1's long chain-of-thought (CoT) inferences. While prior works show that LRMs' capabilities can be reproduced through direct distillation, the continued reliance on the existing models (e.g., R1) remains a critical limitation in advancing the field. As a first step toward independent LRM development, this paper explores the possibility of constructing a long CoT dataset with LLMs that are not trained for inference-time scaling. To this end, we present the Long CoT Collection, a dataset of 100K CoT rationales annotated using existing short CoT LLMs. We develop a pipeline that induces o1's novel reasoning strategies into short CoT LLMs, enabling them to think longer and introducing controllability over the thought budget to better manage the overthinking problem. Our extensive analyses validate that our dataset achieves quality comparable to--or slightly below--R1. Furthermore, our experiments demonstrate that training on our dataset not only strengthens general reasoning skills, but also provides a strong foundation for reinforcement learning--models initialized on our data achieve 2-3x larger gains with RLVR.
PDF32June 4, 2025