ChatPaper.aiChatPaper

nabla^2DFT : Un ensemble de données universel de chimie quantique pour des molécules de type médicament et un benchmark pour les potentiels de réseaux neuronaux

nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials

June 20, 2024
Auteurs: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI

Résumé

Les méthodes de chimie quantique computationnelle fournissent des approximations précises des propriétés moléculaires essentielles pour la découverte de médicaments assistée par ordinateur et d'autres domaines des sciences chimiques. Cependant, leur complexité computationnelle élevée limite l'évolutivité de leurs applications. Les potentiels de réseaux neuronaux (NNPs) constituent une alternative prometteuse aux méthodes de chimie quantique, mais ils nécessitent des ensembles de données volumineux et diversifiés pour leur entraînement. Ce travail présente un nouvel ensemble de données et un benchmark appelé nabla^2DFT, basé sur nablaDFT. Il contient deux fois plus de structures moléculaires, trois fois plus de conformations, de nouveaux types de données et tâches, ainsi que des modèles de pointe. L'ensemble de données inclut les énergies, les forces, 17 propriétés moléculaires, les matrices hamiltoniennes et de recouvrement, ainsi qu'un objet de fonction d'onde. Tous les calculs ont été effectués au niveau DFT (omegaB97X-D/def2-SVP) pour chaque conformation. De plus, nabla^2DFT est le premier ensemble de données à inclure des trajectoires de relaxation pour un nombre substantiel de molécules de type médicament. Nous introduisons également un nouveau benchmark pour évaluer les NNPs dans les tâches de prédiction de propriétés moléculaires, de prédiction hamiltonienne et d'optimisation conformationnelle. Enfin, nous proposons un cadre extensible pour l'entraînement des NNPs et y implémentons 10 modèles.
English
Methods of computational quantum chemistry provide accurate approximations of molecular properties crucial for computer-aided drug discovery and other areas of chemical science. However, high computational complexity limits the scalability of their applications. Neural network potentials (NNPs) are a promising alternative to quantum chemistry methods, but they require large and diverse datasets for training. This work presents a new dataset and benchmark called nabla^2DFT that is based on the nablaDFT. It contains twice as much molecular structures, three times more conformations, new data types and tasks, and state-of-the-art models. The dataset includes energies, forces, 17 molecular properties, Hamiltonian and overlap matrices, and a wavefunction object. All calculations were performed at the DFT level (omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the first dataset that contains relaxation trajectories for a substantial number of drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in molecular property prediction, Hamiltonian prediction, and conformational optimization tasks. Finally, we propose an extendable framework for training NNPs and implement 10 models within it.

Summary

AI-Generated Summary

PDF1024December 2, 2024