オープンマテリアルズ2024(OMat24) 無機材料データセットとモデル
Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models
October 16, 2024
著者: Luis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi
cs.AI
要旨
望ましい特性を持つ新しい材料を発見する能力は、気候変動の緩和から次世代コンピューティングハードウェアの進歩に至るまで、多くの応用にとって重要です。AIは、他の計算方法や試行錯誤に比べて化学空間を効果的に探索することで、材料の発見と設計を加速させる潜在能力を持っています。材料データ、ベンチマーク、モデルに関しては、AIに関する大きな進展が見られますが、公開されているトレーニングデータやオープンな事前学習モデルが不足しているという障壁が現れています。この課題に対処するために、私たちは、大規模なオープンデータセットであるOpen Materials 2024(OMat24)とそれに付随する事前学習モデルのMeta FAIRリリースを提案します。OMat24には、構造と組成の多様性に焦点を当てた1億1,000万以上の密度汎関数理論(DFT)計算が含まれています。私たちのEquiformerV2モデルは、Matbench Discoveryリーダーボードで最先端のパフォーマンスを達成し、基底状態の安定性と生成エネルギーを、それぞれ0.9以上のF1スコアと20 meV/原子の精度で予測することができます。私たちは、モデルサイズ、補助的なノイズ除去目的、およびファインチューニングが、OMat24、MPtraj、Alexandriaなどのさまざまなデータセットにおけるパフォーマンスに与える影響を探究します。OMat24データセットとモデルのオープンリリースにより、研究コミュニティは私たちの取り組みを基盤として、AI支援材料科学のさらなる進展を促進することが可能となります。
English
The ability to discover new materials with desirable properties is critical
for numerous applications from helping mitigate climate change to advances in
next generation computing hardware. AI has the potential to accelerate
materials discovery and design by more effectively exploring the chemical space
compared to other computational methods or by trial-and-error. While
substantial progress has been made on AI for materials data, benchmarks, and
models, a barrier that has emerged is the lack of publicly available training
data and open pre-trained models. To address this, we present a Meta FAIR
release of the Open Materials 2024 (OMat24) large-scale open dataset and an
accompanying set of pre-trained models. OMat24 contains over 110 million
density functional theory (DFT) calculations focused on structural and
compositional diversity. Our EquiformerV2 models achieve state-of-the-art
performance on the Matbench Discovery leaderboard and are capable of predicting
ground-state stability and formation energies to an F1 score above 0.9 and an
accuracy of 20 meV/atom, respectively. We explore the impact of model size,
auxiliary denoising objectives, and fine-tuning on performance across a range
of datasets including OMat24, MPtraj, and Alexandria. The open release of the
OMat24 dataset and models enables the research community to build upon our
efforts and drive further advancements in AI-assisted materials science.Summary
AI-Generated Summary