Один недостающий элемент для моделей рассуждений с открытым исходным кодом: набор данных для смягчения проблемы холодного старта коротких CoT LLM в RL
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
June 3, 2025
Авторы: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
cs.AI
Аннотация
С выходом R1, общедоступной крупной модели рассуждений (LRM), исследователи часто обучают новые LRM, тренируя языковые модели на длинных цепочках рассуждений (CoT), сгенерированных R1. Хотя предыдущие работы показывают, что возможности LRM могут быть воспроизведены с помощью прямой дистилляции, сохраняющаяся зависимость от существующих моделей (например, R1) остается серьезным ограничением в развитии этой области. В качестве первого шага к независимой разработке LRM, данная работа исследует возможность создания длинного набора данных CoT с использованием языковых моделей (LLM), которые не обучались для масштабирования на этапе вывода. С этой целью мы представляем Long CoT Collection — набор данных из 100 тысяч рациональных объяснений CoT, аннотированных с использованием существующих LLM с короткими CoT. Мы разрабатываем конвейер, который внедряет новые стратегии рассуждений o1 в LLM с короткими CoT, позволяя им "думать" дольше и вводя управляемость над бюджетом мыслей для лучшего контроля проблемы чрезмерного анализа. Наши обширные анализы подтверждают, что качество нашего набора данных сопоставимо с R1 или немного ниже. Кроме того, эксперименты показывают, что обучение на нашем наборе данных не только укрепляет общие навыки рассуждения, но и обеспечивает прочную основу для обучения с подкреплением — модели, инициализированные на наших данных, достигают в 2-3 раза большего прогресса с использованием RLVR.
English
With the release of R1, a publicly available large reasoning model (LRM),
researchers commonly train new LRMs by training language models on R1's long
chain-of-thought (CoT) inferences. While prior works show that LRMs'
capabilities can be reproduced through direct distillation, the continued
reliance on the existing models (e.g., R1) remains a critical limitation in
advancing the field. As a first step toward independent LRM development, this
paper explores the possibility of constructing a long CoT dataset with LLMs
that are not trained for inference-time scaling. To this end, we present the
Long CoT Collection, a dataset of 100K CoT rationales annotated using existing
short CoT LLMs. We develop a pipeline that induces o1's novel reasoning
strategies into short CoT LLMs, enabling them to think longer and introducing
controllability over the thought budget to better manage the overthinking
problem. Our extensive analyses validate that our dataset achieves quality
comparable to--or slightly below--R1. Furthermore, our experiments demonstrate
that training on our dataset not only strengthens general reasoning skills, but
also provides a strong foundation for reinforcement learning--models
initialized on our data achieve 2-3x larger gains with RLVR.