Ensemble de données et modèles de matériaux inorganiques Open Materials 2024 (OMat24)
Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models
October 16, 2024
Auteurs: Luis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi
cs.AI
Résumé
La capacité à découvrir de nouveaux matériaux aux propriétés souhaitables est cruciale pour de nombreuses applications, de la lutte contre le changement climatique aux avancées dans le matériel informatique de nouvelle génération. L'IA a le potentiel d'accélérer la découverte et la conception de matériaux en explorant plus efficacement l'espace chimique par rapport à d'autres méthodes computationnelles ou par essais et erreurs. Bien que des progrès substantiels aient été réalisés en matière de données, de références et de modèles d'IA pour les matériaux, une barrière qui s'est manifestée est le manque de données d'entraînement disponibles publiquement et de modèles pré-entraînés ouverts. Pour y remédier, nous présentons une version Meta FAIR de l'ensemble de données ouvert à grande échelle Open Materials 2024 (OMat24) et un ensemble de modèles pré-entraînés associés. OMat24 contient plus de 110 millions de calculs de théorie fonctionnelle de la densité (DFT) axés sur la diversité structurale et compositionnelle. Nos modèles EquiformerV2 atteignent des performances de pointe sur le classement Matbench Discovery et sont capables de prédire la stabilité à l'état fondamental et les énergies de formation avec un score F1 supérieur à 0,9 et une précision de 20 meV/atome, respectivement. Nous explorons l'impact de la taille du modèle, des objectifs auxiliaires de débruitage et du réglage fin sur les performances à travers une gamme d'ensembles de données comprenant OMat24, MPtraj et Alexandria. La publication ouverte de l'ensemble de données OMat24 et des modèles permet à la communauté de recherche de s'appuyer sur nos efforts et de stimuler de nouvelles avancées dans la science des matériaux assistée par l'IA.
English
The ability to discover new materials with desirable properties is critical
for numerous applications from helping mitigate climate change to advances in
next generation computing hardware. AI has the potential to accelerate
materials discovery and design by more effectively exploring the chemical space
compared to other computational methods or by trial-and-error. While
substantial progress has been made on AI for materials data, benchmarks, and
models, a barrier that has emerged is the lack of publicly available training
data and open pre-trained models. To address this, we present a Meta FAIR
release of the Open Materials 2024 (OMat24) large-scale open dataset and an
accompanying set of pre-trained models. OMat24 contains over 110 million
density functional theory (DFT) calculations focused on structural and
compositional diversity. Our EquiformerV2 models achieve state-of-the-art
performance on the Matbench Discovery leaderboard and are capable of predicting
ground-state stability and formation energies to an F1 score above 0.9 and an
accuracy of 20 meV/atom, respectively. We explore the impact of model size,
auxiliary denoising objectives, and fine-tuning on performance across a range
of datasets including OMat24, MPtraj, and Alexandria. The open release of the
OMat24 dataset and models enables the research community to build upon our
efforts and drive further advancements in AI-assisted materials science.Summary
AI-Generated Summary