MegaScience : Repousser les Frontières des Ensembles de Données Post-Entraînement pour le Raisonnement Scientifique

Résumé

Le raisonnement scientifique est essentiel pour développer des IA scientifiques et soutenir les chercheurs humains dans l'exploration des frontières de la découverte en sciences naturelles. Cependant, la communauté open source s'est principalement concentrée sur les mathématiques et la programmation, tout en négligeant le domaine scientifique, en grande partie en raison de l'absence de jeux de données ouverts, à grande échelle, de haute qualité et vérifiables pour le raisonnement scientifique. Pour combler cette lacune, nous présentons d'abord TextbookReasoning, un jeu de données ouvert comprenant des réponses de référence exactes extraites de 12 000 manuels scientifiques universitaires, avec 650 000 questions de raisonnement couvrant 7 disciplines scientifiques. Nous introduisons également MegaScience, un mélange à grande échelle de jeux de données open source de haute qualité totalisant 1,25 million d'instances, développé grâce à des études d'ablation systématiques évaluant diverses méthodologies de sélection des données pour identifier le sous-ensemble optimal pour chaque jeu de données scientifique disponible publiquement. Parallèlement, nous construisons un système d'évaluation complet couvrant divers sujets et types de questions à travers 15 benchmarks, intégrant des stratégies d'extraction de réponses exhaustives pour garantir des métriques d'évaluation précises. Nos expériences démontrent que nos jeux de données atteignent des performances supérieures et une efficacité d'entraînement accrue avec des longueurs de réponse plus concises par rapport aux jeux de données scientifiques open source existants. De plus, nous entraînons les modèles de base Llama3.1, Qwen2.5 et Qwen3 sur MegaScience, qui surpassent significativement les modèles instruct officiels correspondants en termes de performance moyenne. Par ailleurs, MegaScience montre une plus grande efficacité pour les modèles plus grands et plus puissants, suggérant un avantage de mise à l'échelle pour l'ajustement scientifique. Nous mettons à disposition notre pipeline de curation de données, notre système d'évaluation, nos jeux de données et sept modèles entraînés à la communauté pour faire progresser la recherche en raisonnement scientifique.

English

Scientific reasoning is critical for developing AI scientists and supporting human researchers in advancing the frontiers of natural science discovery. However, the open-source community has primarily focused on mathematics and coding while neglecting the scientific domain, largely due to the absence of open, large-scale, high-quality, verifiable scientific reasoning datasets. To bridge this gap, we first present TextbookReasoning, an open dataset featuring truthful reference answers extracted from 12k university-level scientific textbooks, comprising 650k reasoning questions spanning 7 scientific disciplines. We further introduce MegaScience, a large-scale mixture of high-quality open-source datasets totaling 1.25 million instances, developed through systematic ablation studies that evaluate various data selection methodologies to identify the optimal subset for each publicly available scientific dataset. Meanwhile, we build a comprehensive evaluation system covering diverse subjects and question types across 15 benchmarks, incorporating comprehensive answer extraction strategies to ensure accurate evaluation metrics. Our experiments demonstrate that our datasets achieve superior performance and training efficiency with more concise response lengths compared to existing open-source scientific datasets. Furthermore, we train Llama3.1, Qwen2.5, and Qwen3 series base models on MegaScience, which significantly outperform the corresponding official instruct models in average performance. In addition, MegaScience exhibits greater effectiveness for larger and stronger models, suggesting a scaling benefit for scientific tuning. We release our data curation pipeline, evaluation system, datasets, and seven trained models to the community to advance scientific reasoning research.