MegaScience : Repousser les Frontières des Ensembles de Données Post-Entraînement pour le Raisonnement Scientifique
MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning
July 22, 2025
papers.authors: Run-Ze Fan, Zengzhi Wang, Pengfei Liu
cs.AI
papers.abstract
Le raisonnement scientifique est essentiel pour développer des IA scientifiques et soutenir les chercheurs humains dans l'exploration des frontières de la découverte en sciences naturelles. Cependant, la communauté open source s'est principalement concentrée sur les mathématiques et la programmation, tout en négligeant le domaine scientifique, en grande partie en raison de l'absence de jeux de données ouverts, à grande échelle, de haute qualité et vérifiables pour le raisonnement scientifique. Pour combler cette lacune, nous présentons d'abord TextbookReasoning, un jeu de données ouvert comprenant des réponses de référence exactes extraites de 12 000 manuels scientifiques universitaires, avec 650 000 questions de raisonnement couvrant 7 disciplines scientifiques. Nous introduisons également MegaScience, un mélange à grande échelle de jeux de données open source de haute qualité totalisant 1,25 million d'instances, développé grâce à des études d'ablation systématiques évaluant diverses méthodologies de sélection des données pour identifier le sous-ensemble optimal pour chaque jeu de données scientifique disponible publiquement. Parallèlement, nous construisons un système d'évaluation complet couvrant divers sujets et types de questions à travers 15 benchmarks, intégrant des stratégies d'extraction de réponses exhaustives pour garantir des métriques d'évaluation précises. Nos expériences démontrent que nos jeux de données atteignent des performances supérieures et une efficacité d'entraînement accrue avec des longueurs de réponse plus concises par rapport aux jeux de données scientifiques open source existants. De plus, nous entraînons les modèles de base Llama3.1, Qwen2.5 et Qwen3 sur MegaScience, qui surpassent significativement les modèles instruct officiels correspondants en termes de performance moyenne. Par ailleurs, MegaScience montre une plus grande efficacité pour les modèles plus grands et plus puissants, suggérant un avantage de mise à l'échelle pour l'ajustement scientifique. Nous mettons à disposition notre pipeline de curation de données, notre système d'évaluation, nos jeux de données et sept modèles entraînés à la communauté pour faire progresser la recherche en raisonnement scientifique.
English
Scientific reasoning is critical for developing AI scientists and supporting
human researchers in advancing the frontiers of natural science discovery.
However, the open-source community has primarily focused on mathematics and
coding while neglecting the scientific domain, largely due to the absence of
open, large-scale, high-quality, verifiable scientific reasoning datasets. To
bridge this gap, we first present TextbookReasoning, an open dataset featuring
truthful reference answers extracted from 12k university-level scientific
textbooks, comprising 650k reasoning questions spanning 7 scientific
disciplines. We further introduce MegaScience, a large-scale mixture of
high-quality open-source datasets totaling 1.25 million instances, developed
through systematic ablation studies that evaluate various data selection
methodologies to identify the optimal subset for each publicly available
scientific dataset. Meanwhile, we build a comprehensive evaluation system
covering diverse subjects and question types across 15 benchmarks,
incorporating comprehensive answer extraction strategies to ensure accurate
evaluation metrics. Our experiments demonstrate that our datasets achieve
superior performance and training efficiency with more concise response lengths
compared to existing open-source scientific datasets. Furthermore, we train
Llama3.1, Qwen2.5, and Qwen3 series base models on MegaScience, which
significantly outperform the corresponding official instruct models in average
performance. In addition, MegaScience exhibits greater effectiveness for larger
and stronger models, suggesting a scaling benefit for scientific tuning. We
release our data curation pipeline, evaluation system, datasets, and seven
trained models to the community to advance scientific reasoning research.