Um Componente Faltante para Modelos de Raciocínio de Código Aberto: Um Conjunto de Dados para Mitigar o Início Frio de LLMs com Cadeias de Pensamento Curtas em Aprendizado por Reforço
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
June 3, 2025
Autores: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee
cs.AI
Resumo
Com o lançamento do R1, um modelo de raciocínio em larga escala (LRM) disponível publicamente, os pesquisadores comumente treinam novos LRMs ao treinar modelos de linguagem nas longas cadeias de pensamento (CoT) do R1. Embora trabalhos anteriores demonstrem que as capacidades dos LRMs podem ser reproduzidas por meio de destilação direta, a dependência contínua dos modelos existentes (por exemplo, R1) permanece uma limitação crítica no avanço do campo. Como um primeiro passo em direção ao desenvolvimento independente de LRMs, este artigo explora a possibilidade de construir um conjunto de dados de CoT longo com LLMs que não são treinados para escalonamento em tempo de inferência. Para isso, apresentamos o Long CoT Collection, um conjunto de dados de 100 mil racionais CoT anotados usando LLMs de CoT curto existentes. Desenvolvemos um pipeline que introduz as novas estratégias de raciocínio do o1 em LLMs de CoT curto, permitindo que eles pensem por mais tempo e introduzindo controlabilidade sobre o orçamento de pensamento para melhor gerenciar o problema de excesso de pensamento. Nossas análises extensivas validam que nosso conjunto de dados alcança qualidade comparável—ou ligeiramente inferior—ao R1. Além disso, nossos experimentos demonstram que o treinamento em nosso conjunto de dados não apenas fortalece habilidades gerais de raciocínio, mas também fornece uma base sólida para o aprendizado por reforço—modelos inicializados com nossos dados alcançam ganhos 2-3 vezes maiores com RLVR.
English
With the release of R1, a publicly available large reasoning model (LRM),
researchers commonly train new LRMs by training language models on R1's long
chain-of-thought (CoT) inferences. While prior works show that LRMs'
capabilities can be reproduced through direct distillation, the continued
reliance on the existing models (e.g., R1) remains a critical limitation in
advancing the field. As a first step toward independent LRM development, this
paper explores the possibility of constructing a long CoT dataset with LLMs
that are not trained for inference-time scaling. To this end, we present the
Long CoT Collection, a dataset of 100K CoT rationales annotated using existing
short CoT LLMs. We develop a pipeline that induces o1's novel reasoning
strategies into short CoT LLMs, enabling them to think longer and introducing
controllability over the thought budget to better manage the overthinking
problem. Our extensive analyses validate that our dataset achieves quality
comparable to--or slightly below--R1. Furthermore, our experiments demonstrate
that training on our dataset not only strengthens general reasoning skills, but
also provides a strong foundation for reinforcement learning--models
initialized on our data achieve 2-3x larger gains with RLVR.