ChatPaper.aiChatPaper

OpenThoughts: Datenrezepte für Reasoning-Modelle

OpenThoughts: Data Recipes for Reasoning Models

June 4, 2025
Autoren: Etash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt
cs.AI

Zusammenfassung

Reasoning-Modelle haben auf vielen Benchmarks, die Mathematik, Code und Wissenschaft betreffen, rasante Fortschritte gemacht. Dennoch gibt es noch viele offene Fragen bezüglich der besten Trainingsmethoden für Reasoning, da state-of-the-art Modelle oft auf proprietären Datensätzen basieren, über die nur wenig bis keine öffentlichen Informationen verfügbar sind. Um dies zu adressieren, hat das OpenThoughts-Projekt das Ziel, Open-Source-Datensätze für das Training von Reasoning-Modellen zu erstellen. Nach ersten Erkundungen führte unser OpenThoughts2-1M-Datensatz zu OpenThinker2-32B, dem ersten Modell, das mit öffentlichen Reasoning-Daten trainiert wurde und auf standardisierten Reasoning-Benchmarks wie AIME und LiveCodeBench mit DeepSeek-R1-Distill-32B gleichzieht. Anschließend verbesserten wir unseren Datensatz weiter, indem wir systematisch jeden Schritt unserer Daten-Generierungs-Pipeline mit über 1.000 kontrollierten Experimenten untersuchten, was zu OpenThoughts3 führte. Durch die Skalierung der Pipeline auf 1,2 Millionen Beispiele und die Verwendung von QwQ-32B als Lehrer-Modell entstand unser OpenThinker3-7B-Modell, das state-of-the-art Ergebnisse erzielt: 53 % auf AIME 2025, 51 % auf LiveCodeBench 06/24–01/25 und 54 % auf GPQA Diamond. Alle unsere Datensätze und Modelle sind auf https://openthoughts.ai verfügbar.
English
Reasoning models have made rapid progress on many benchmarks involving math, code, and science. Yet, there are still many open questions about the best training recipes for reasoning since state-of-the-art models often rely on proprietary datasets with little to no public information available. To address this, the goal of the OpenThoughts project is to create open-source datasets for training reasoning models. After initial explorations, our OpenThoughts2-1M dataset led to OpenThinker2-32B, the first model trained on public reasoning data to match DeepSeek-R1-Distill-32B on standard reasoning benchmarks such as AIME and LiveCodeBench. We then improve our dataset further by systematically investigating each step of our data generation pipeline with 1,000+ controlled experiments, which led to OpenThoughts3. Scaling the pipeline to 1.2M examples and using QwQ-32B as teacher yields our OpenThinker3-7B model, which achieves state-of-the-art results: 53% on AIME 2025, 51% on LiveCodeBench 06/24-01/25, and 54% on GPQA Diamond. All of our datasets and models are available on https://openthoughts.ai.
PDF282June 5, 2025