Один недостающий элемент для моделей рассуждений с открытым исходным кодом: набор данных для смягчения проблемы холодного старта коротких CoT LLM в RL

Аннотация

С выходом R1, общедоступной крупной модели рассуждений (LRM), исследователи часто обучают новые LRM, тренируя языковые модели на длинных цепочках рассуждений (CoT), сгенерированных R1. Хотя предыдущие работы показывают, что возможности LRM могут быть воспроизведены с помощью прямой дистилляции, сохраняющаяся зависимость от существующих моделей (например, R1) остается серьезным ограничением в развитии этой области. В качестве первого шага к независимой разработке LRM, данная работа исследует возможность создания длинного набора данных CoT с использованием языковых моделей (LLM), которые не обучались для масштабирования на этапе вывода. С этой целью мы представляем Long CoT Collection — набор данных из 100 тысяч рациональных объяснений CoT, аннотированных с использованием существующих LLM с короткими CoT. Мы разрабатываем конвейер, который внедряет новые стратегии рассуждений o1 в LLM с короткими CoT, позволяя им "думать" дольше и вводя управляемость над бюджетом мыслей для лучшего контроля проблемы чрезмерного анализа. Наши обширные анализы подтверждают, что качество нашего набора данных сопоставимо с R1 или немного ниже. Кроме того, эксперименты показывают, что обучение на нашем наборе данных не только укрепляет общие навыки рассуждения, но и обеспечивает прочную основу для обучения с подкреплением — модели, инициализированные на наших данных, достигают в 2-3 раза большего прогресса с использованием RLVR.

English

With the release of R1, a publicly available large reasoning model (LRM), researchers commonly train new LRMs by training language models on R1's long chain-of-thought (CoT) inferences. While prior works show that LRMs' capabilities can be reproduced through direct distillation, the continued reliance on the existing models (e.g., R1) remains a critical limitation in advancing the field. As a first step toward independent LRM development, this paper explores the possibility of constructing a long CoT dataset with LLMs that are not trained for inference-time scaling. To this end, we present the Long CoT Collection, a dataset of 100K CoT rationales annotated using existing short CoT LLMs. We develop a pipeline that induces o1's novel reasoning strategies into short CoT LLMs, enabling them to think longer and introducing controllability over the thought budget to better manage the overthinking problem. Our extensive analyses validate that our dataset achieves quality comparable to--or slightly below--R1. Furthermore, our experiments demonstrate that training on our dataset not only strengthens general reasoning skills, but also provides a strong foundation for reinforcement learning--models initialized on our data achieve 2-3x larger gains with RLVR.

Один недостающий элемент для моделей рассуждений с открытым исходным кодом: набор данных для смягчения проблемы холодного старта коротких CoT LLM в RL

One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

Аннотация

Support