nabla^2DFT : Un ensemble de données universel de chimie quantique pour des molécules de type médicament et un benchmark pour les potentiels de réseaux neuronauxnabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like
Molecules and a Benchmark for Neural Network Potentials
Les méthodes de chimie quantique computationnelle fournissent des approximations précises des propriétés moléculaires essentielles pour la découverte de médicaments assistée par ordinateur et d'autres domaines des sciences chimiques. Cependant, leur complexité computationnelle élevée limite l'évolutivité de leurs applications. Les potentiels de réseaux neuronaux (NNPs) constituent une alternative prometteuse aux méthodes de chimie quantique, mais ils nécessitent des ensembles de données volumineux et diversifiés pour leur entraînement. Ce travail présente un nouvel ensemble de données et un benchmark appelé nabla^2DFT, basé sur nablaDFT. Il contient deux fois plus de structures moléculaires, trois fois plus de conformations, de nouveaux types de données et tâches, ainsi que des modèles de pointe. L'ensemble de données inclut les énergies, les forces, 17 propriétés moléculaires, les matrices hamiltoniennes et de recouvrement, ainsi qu'un objet de fonction d'onde. Tous les calculs ont été effectués au niveau DFT (omegaB97X-D/def2-SVP) pour chaque conformation. De plus, nabla^2DFT est le premier ensemble de données à inclure des trajectoires de relaxation pour un nombre substantiel de molécules de type médicament. Nous introduisons également un nouveau benchmark pour évaluer les NNPs dans les tâches de prédiction de propriétés moléculaires, de prédiction hamiltonienne et d'optimisation conformationnelle. Enfin, nous proposons un cadre extensible pour l'entraînement des NNPs et y implémentons 10 modèles.