OpenThoughts: 추론 모델을 위한 데이터 레시피
OpenThoughts: Data Recipes for Reasoning Models
June 4, 2025
저자: Etash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt
cs.AI
초록
추론 모델은 수학, 코드, 과학을 포함한 다양한 벤치마크에서 빠른 발전을 이루어 왔습니다. 그러나 최첨단 모델들이 공개 정보가 거의 없는 독점 데이터셋에 의존하는 경우가 많기 때문에, 추론을 위한 최적의 훈련 방법에 관해서는 여전히 많은 의문점이 남아 있습니다. 이를 해결하기 위해 OpenThoughts 프로젝트는 추론 모델 훈련을 위한 오픈소스 데이터셋을 구축하는 것을 목표로 합니다. 초기 탐색을 거쳐, OpenThoughts2-1M 데이터셋은 AIME 및 LiveCodeBench과 같은 표준 추론 벤치마크에서 DeepSeek-R1-Distill-32B와 동등한 성능을 보이는 최초의 공개 추론 데이터로 훈련된 모델인 OpenThinker2-32B를 탄생시켰습니다. 이후 우리는 1,000개 이상의 통제된 실험을 통해 데이터 생성 파이프라인의 각 단계를 체계적으로 조사하여 데이터셋을 더욱 개선하였고, 이를 통해 OpenThoughts3를 개발했습니다. 이 파이프라인을 120만 개의 예제로 확장하고 QwQ-32B를 교사 모델로 사용하여 OpenThinker3-7B 모델을 개발하였으며, 이 모델은 AIME 2025에서 53%, LiveCodeBench 06/24-01/25에서 51%, GPQA Diamond에서 54%라는 최첨단 성적을 달성했습니다. 우리의 모든 데이터셋과 모델은 https://openthoughts.ai에서 확인할 수 있습니다.
English
Reasoning models have made rapid progress on many benchmarks involving math,
code, and science. Yet, there are still many open questions about the best
training recipes for reasoning since state-of-the-art models often rely on
proprietary datasets with little to no public information available. To address
this, the goal of the OpenThoughts project is to create open-source datasets
for training reasoning models. After initial explorations, our OpenThoughts2-1M
dataset led to OpenThinker2-32B, the first model trained on public reasoning
data to match DeepSeek-R1-Distill-32B on standard reasoning benchmarks such as
AIME and LiveCodeBench. We then improve our dataset further by systematically
investigating each step of our data generation pipeline with 1,000+ controlled
experiments, which led to OpenThoughts3. Scaling the pipeline to 1.2M examples
and using QwQ-32B as teacher yields our OpenThinker3-7B model, which achieves
state-of-the-art results: 53% on AIME 2025, 51% on LiveCodeBench 06/24-01/25,
and 54% on GPQA Diamond. All of our datasets and models are available on
https://openthoughts.ai.