Conjunto de Dados e Modelos de Materiais Inorgânicos Open Materials 2024 (OMat24)
Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models
October 16, 2024
Autores: Luis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi
cs.AI
Resumo
A capacidade de descobrir novos materiais com propriedades desejáveis é fundamental para inúmeras aplicações, desde ajudar a mitigar as mudanças climáticas até avanços em hardware de computação de próxima geração. A IA tem o potencial de acelerar a descoberta e o design de materiais, explorando de forma mais eficaz o espaço químico em comparação com outros métodos computacionais ou tentativa e erro. Embora tenham sido feitos progressos significativos em IA para dados, benchmarks e modelos de materiais, uma barreira que surgiu é a falta de dados de treinamento publicamente disponíveis e modelos pré-treinados abertos. Para abordar isso, apresentamos um lançamento Meta FAIR do conjunto de dados aberto em larga escala Open Materials 2024 (OMat24) e um conjunto de modelos pré-treinados correspondentes. O OMat24 contém mais de 110 milhões de cálculos de teoria funcional da densidade (DFT) focados em diversidade estrutural e composicional. Nossos modelos EquiformerV2 alcançam desempenho de ponta no Matbench Discovery leaderboard e são capazes de prever estabilidade no estado fundamental e energias de formação para um escore F1 acima de 0,9 e uma precisão de 20 meV/átomo, respectivamente. Exploramos o impacto do tamanho do modelo, objetivos auxiliares de redução de ruído e ajuste fino no desempenho em uma variedade de conjuntos de dados, incluindo OMat24, MPtraj e Alexandria. O lançamento aberto do conjunto de dados OMat24 e dos modelos permite à comunidade de pesquisa construir sobre nossos esforços e impulsionar novos avanços na ciência de materiais assistida por IA.
English
The ability to discover new materials with desirable properties is critical
for numerous applications from helping mitigate climate change to advances in
next generation computing hardware. AI has the potential to accelerate
materials discovery and design by more effectively exploring the chemical space
compared to other computational methods or by trial-and-error. While
substantial progress has been made on AI for materials data, benchmarks, and
models, a barrier that has emerged is the lack of publicly available training
data and open pre-trained models. To address this, we present a Meta FAIR
release of the Open Materials 2024 (OMat24) large-scale open dataset and an
accompanying set of pre-trained models. OMat24 contains over 110 million
density functional theory (DFT) calculations focused on structural and
compositional diversity. Our EquiformerV2 models achieve state-of-the-art
performance on the Matbench Discovery leaderboard and are capable of predicting
ground-state stability and formation energies to an F1 score above 0.9 and an
accuracy of 20 meV/atom, respectively. We explore the impact of model size,
auxiliary denoising objectives, and fine-tuning on performance across a range
of datasets including OMat24, MPtraj, and Alexandria. The open release of the
OMat24 dataset and models enables the research community to build upon our
efforts and drive further advancements in AI-assisted materials science.Summary
AI-Generated Summary