OpenThoughts : Recettes de données pour les modèles de raisonnement
OpenThoughts: Data Recipes for Reasoning Models
June 4, 2025
Auteurs: Etash Guha, Ryan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Yichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon Albalak, Kushal Arora, Blake Wulfe, Chinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt
cs.AI
Résumé
Les modèles de raisonnement ont connu des progrès rapides sur de nombreux benchmarks impliquant les mathématiques, le code et les sciences. Cependant, de nombreuses questions restent en suspens concernant les meilleures méthodes d’entraînement pour le raisonnement, car les modèles de pointe reposent souvent sur des ensembles de données propriétaires avec peu ou pas d’informations publiques disponibles. Pour répondre à cela, l’objectif du projet OpenThoughts est de créer des ensembles de données open source pour l’entraînement de modèles de raisonnement. Après des explorations initiales, notre ensemble de données OpenThoughts2-1M a conduit à OpenThinker2-32B, le premier modèle entraîné sur des données de raisonnement publiques à égaler DeepSeek-R1-Distill-32B sur des benchmarks de raisonnement standard tels que AIME et LiveCodeBench. Nous avons ensuite amélioré notre ensemble de données en examinant systématiquement chaque étape de notre pipeline de génération de données avec plus de 1 000 expériences contrôlées, ce qui a abouti à OpenThoughts3. En augmentant l’échelle du pipeline à 1,2 million d’exemples et en utilisant QwQ-32B comme enseignant, nous obtenons notre modèle OpenThinker3-7B, qui atteint des résultats de pointe : 53 % sur AIME 2025, 51 % sur LiveCodeBench 06/24-01/25 et 54 % sur GPQA Diamond. Tous nos ensembles de données et modèles sont disponibles sur https://openthoughts.ai.
English
Reasoning models have made rapid progress on many benchmarks involving math,
code, and science. Yet, there are still many open questions about the best
training recipes for reasoning since state-of-the-art models often rely on
proprietary datasets with little to no public information available. To address
this, the goal of the OpenThoughts project is to create open-source datasets
for training reasoning models. After initial explorations, our OpenThoughts2-1M
dataset led to OpenThinker2-32B, the first model trained on public reasoning
data to match DeepSeek-R1-Distill-32B on standard reasoning benchmarks such as
AIME and LiveCodeBench. We then improve our dataset further by systematically
investigating each step of our data generation pipeline with 1,000+ controlled
experiments, which led to OpenThoughts3. Scaling the pipeline to 1.2M examples
and using QwQ-32B as teacher yields our OpenThinker3-7B model, which achieves
state-of-the-art results: 53% on AIME 2025, 51% on LiveCodeBench 06/24-01/25,
and 54% on GPQA Diamond. All of our datasets and models are available on
https://openthoughts.ai.