nabla^2DFT: Ein universeller Datensatz für quantenchemische Untersuchungen von medikamentenähnlichen Molekülen und ein Benchmark für neuronale Netzwerkpotenziale
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
June 20, 2024
Autoren: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI
Zusammenfassung
Methoden der rechnergestützten Quantenchemie liefern genaue Näherungen molekularer Eigenschaften, die für die computergestützte Arzneimittelforschung und andere Bereiche der chemischen Wissenschaft entscheidend sind. Allerdings begrenzt die hohe Rechenkomplexität die Skalierbarkeit ihrer Anwendungen. Neuronale Netzwerkpotenziale (NNPs) sind eine vielversprechende Alternative zu den Methoden der Quantenchemie, erfordern jedoch große und vielfältige Datensätze für das Training. Diese Arbeit präsentiert einen neuen Datensatz und Benchmark namens nabla^2DFT, der auf dem nablaDFT basiert. Er enthält doppelt so viele molekulare Strukturen, dreimal mehr Konformationen, neue Datentypen und Aufgaben sowie modernste Modelle. Der Datensatz umfasst Energien, Kräfte, 17 molekulare Eigenschaften, Hamilton- und Überlappungsmatrizen sowie ein Wellenfunktionsobjekt. Alle Berechnungen wurden auf DFT-Niveau (omegaB97X-D/def2-SVP) für jede Konformation durchgeführt. Darüber hinaus ist nabla^2DFT der erste Datensatz, der Relaxationstrajektorien für eine beträchtliche Anzahl von medikamentenähnlichen Molekülen enthält. Wir stellen auch einen neuen Benchmark zur Bewertung von NNPs in der Vorhersage molekularer Eigenschaften, der Hamilton-Vorhersage und der konformationellen Optimierungsaufgaben vor. Schließlich schlagen wir ein erweiterbares Framework für das Training von NNPs vor und implementieren 10 Modelle darin.
English
Methods of computational quantum chemistry provide accurate approximations of
molecular properties crucial for computer-aided drug discovery and other areas
of chemical science. However, high computational complexity limits the
scalability of their applications. Neural network potentials (NNPs) are a
promising alternative to quantum chemistry methods, but they require large and
diverse datasets for training. This work presents a new dataset and benchmark
called nabla^2DFT that is based on the nablaDFT. It contains twice as much
molecular structures, three times more conformations, new data types and tasks,
and state-of-the-art models. The dataset includes energies, forces, 17
molecular properties, Hamiltonian and overlap matrices, and a wavefunction
object. All calculations were performed at the DFT level
(omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the
first dataset that contains relaxation trajectories for a substantial number of
drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in
molecular property prediction, Hamiltonian prediction, and conformational
optimization tasks. Finally, we propose an extendable framework for training
NNPs and implement 10 models within it.Summary
AI-Generated Summary