nabla^2DFT : Un ensemble de données universel de chimie quantique pour des molécules de type médicament et un benchmark pour les potentiels de réseaux neuronaux
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
June 20, 2024
Auteurs: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI
Résumé
Les méthodes de chimie quantique computationnelle fournissent des approximations précises des propriétés moléculaires essentielles pour la découverte de médicaments assistée par ordinateur et d'autres domaines des sciences chimiques. Cependant, leur complexité computationnelle élevée limite l'évolutivité de leurs applications. Les potentiels de réseaux neuronaux (NNPs) constituent une alternative prometteuse aux méthodes de chimie quantique, mais ils nécessitent des ensembles de données volumineux et diversifiés pour leur entraînement. Ce travail présente un nouvel ensemble de données et un benchmark appelé nabla^2DFT, basé sur nablaDFT. Il contient deux fois plus de structures moléculaires, trois fois plus de conformations, de nouveaux types de données et tâches, ainsi que des modèles de pointe. L'ensemble de données inclut les énergies, les forces, 17 propriétés moléculaires, les matrices hamiltoniennes et de recouvrement, ainsi qu'un objet de fonction d'onde. Tous les calculs ont été effectués au niveau DFT (omegaB97X-D/def2-SVP) pour chaque conformation. De plus, nabla^2DFT est le premier ensemble de données à inclure des trajectoires de relaxation pour un nombre substantiel de molécules de type médicament. Nous introduisons également un nouveau benchmark pour évaluer les NNPs dans les tâches de prédiction de propriétés moléculaires, de prédiction hamiltonienne et d'optimisation conformationnelle. Enfin, nous proposons un cadre extensible pour l'entraînement des NNPs et y implémentons 10 modèles.
English
Methods of computational quantum chemistry provide accurate approximations of
molecular properties crucial for computer-aided drug discovery and other areas
of chemical science. However, high computational complexity limits the
scalability of their applications. Neural network potentials (NNPs) are a
promising alternative to quantum chemistry methods, but they require large and
diverse datasets for training. This work presents a new dataset and benchmark
called nabla^2DFT that is based on the nablaDFT. It contains twice as much
molecular structures, three times more conformations, new data types and tasks,
and state-of-the-art models. The dataset includes energies, forces, 17
molecular properties, Hamiltonian and overlap matrices, and a wavefunction
object. All calculations were performed at the DFT level
(omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the
first dataset that contains relaxation trajectories for a substantial number of
drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in
molecular property prediction, Hamiltonian prediction, and conformational
optimization tasks. Finally, we propose an extendable framework for training
NNPs and implement 10 models within it.Summary
AI-Generated Summary