nabla^2DFT: Een Universeel Kwantumchemie-Dataset van Geneesmiddelachtige Moleculen en een Benchmark voor Neurale Netwerkpotentialen
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
June 20, 2024
Auteurs: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI
Samenvatting
Methoden van computationele kwantumchemie bieden nauwkeurige benaderingen van moleculaire eigenschappen die cruciaal zijn voor computerondersteunde geneesmiddelenontdekking en andere gebieden van de chemische wetenschap. De hoge computationele complexiteit beperkt echter de schaalbaarheid van hun toepassingen. Neurale netwerkpotentialen (NNPs) vormen een veelbelovend alternatief voor kwantumchemische methoden, maar vereisen grote en diverse datasets voor training. Dit werk presenteert een nieuwe dataset en benchmark genaamd nabla^2DFT, gebaseerd op nablaDFT. Het bevat twee keer zoveel moleculaire structuren, drie keer meer conformaties, nieuwe datatypen en taken, en state-of-the-art modellen. De dataset omvat energieën, krachten, 17 moleculaire eigenschappen, Hamiltoniaanse en overlapmatrices, en een golffunctie-object. Alle berekeningen werden uitgevoerd op DFT-niveau (omegaB97X-D/def2-SVP) voor elke conformatie. Bovendien is nabla^2DFT de eerste dataset die relaxatietrajecten bevat voor een aanzienlijk aantal geneesmiddelachtige moleculen. We introduceren ook een nieuwe benchmark voor het evalueren van NNPs in taken zoals moleculaire eigenschapsvoorspelling, Hamiltoniaanse voorspelling en conformationele optimalisatie. Tot slot stellen we een uitbreidbaar framework voor voor het trainen van NNPs en implementeren we 10 modellen binnen dit framework.
English
Methods of computational quantum chemistry provide accurate approximations of
molecular properties crucial for computer-aided drug discovery and other areas
of chemical science. However, high computational complexity limits the
scalability of their applications. Neural network potentials (NNPs) are a
promising alternative to quantum chemistry methods, but they require large and
diverse datasets for training. This work presents a new dataset and benchmark
called nabla^2DFT that is based on the nablaDFT. It contains twice as much
molecular structures, three times more conformations, new data types and tasks,
and state-of-the-art models. The dataset includes energies, forces, 17
molecular properties, Hamiltonian and overlap matrices, and a wavefunction
object. All calculations were performed at the DFT level
(omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the
first dataset that contains relaxation trajectories for a substantial number of
drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in
molecular property prediction, Hamiltonian prediction, and conformational
optimization tasks. Finally, we propose an extendable framework for training
NNPs and implement 10 models within it.