ChatPaper.aiChatPaper

OpenThoughts: 推論モデルのためのデータレシピ

OpenThoughts: Data Recipes for Reasoning Models

June 4, 2025
著者: Etash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt
cs.AI

要旨

推論モデルは、数学、コード、科学を含む多くのベンチマークにおいて急速な進歩を遂げてきた。しかし、最先端のモデルがしばしば公開情報のほとんどない独自のデータセットに依存しているため、推論のための最適なトレーニング手法についてはまだ多くの未解決の疑問が残されている。この問題に対処するため、OpenThoughtsプロジェクトの目標は、推論モデルのトレーニング用のオープンソースデータセットを作成することである。初期の探求の後、我々のOpenThoughts2-1Mデータセットは、OpenThinker2-32Bを生み出し、AIMEやLiveCodeBenchなどの標準的な推論ベンチマークにおいてDeepSeek-R1-Distill-32Bに匹敵する、公開された推論データでトレーニングされた最初のモデルとなった。その後、我々はデータ生成パイプラインの各ステップを1,000以上の制御実験で体系的に調査し、OpenThoughts3をさらに改善した。パイプラインを1.2Mの例にスケールアップし、QwQ-32Bを教師として使用することで、OpenThinker3-7Bモデルが得られ、これは最先端の結果を達成した:AIME 2025で53%、LiveCodeBench 06/24-01/25で51%、GPQA Diamondで54%である。我々のすべてのデータセットとモデルはhttps://openthoughts.aiで利用可能である。
English
Reasoning models have made rapid progress on many benchmarks involving math, code, and science. Yet, there are still many open questions about the best training recipes for reasoning since state-of-the-art models often rely on proprietary datasets with little to no public information available. To address this, the goal of the OpenThoughts project is to create open-source datasets for training reasoning models. After initial explorations, our OpenThoughts2-1M dataset led to OpenThinker2-32B, the first model trained on public reasoning data to match DeepSeek-R1-Distill-32B on standard reasoning benchmarks such as AIME and LiveCodeBench. We then improve our dataset further by systematically investigating each step of our data generation pipeline with 1,000+ controlled experiments, which led to OpenThoughts3. Scaling the pipeline to 1.2M examples and using QwQ-32B as teacher yields our OpenThinker3-7B model, which achieves state-of-the-art results: 53% on AIME 2025, 51% on LiveCodeBench 06/24-01/25, and 54% on GPQA Diamond. All of our datasets and models are available on https://openthoughts.ai.
PDF282June 5, 2025