nabla^2DFT: Un Dataset Universale di Chimica Quantistica per Molecole Simili a Farmaci e un Benchmark per Potenziali di Reti Neurali
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
June 20, 2024
Autori: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI
Abstract
I metodi della chimica quantistica computazionale forniscono approssimazioni accurate delle proprietà molecolari cruciali per la scoperta di farmaci assistita da computer e altre aree delle scienze chimiche. Tuttavia, l'elevata complessità computazionale limita la scalabilità delle loro applicazioni. I potenziali di rete neurale (NNP) rappresentano una promettente alternativa ai metodi della chimica quantica, ma richiedono grandi e diversificati dataset per l'addestramento. Questo lavoro presenta un nuovo dataset e benchmark chiamato nabla^2DFT, basato su nablaDFT. Esso contiene il doppio delle strutture molecolari, il triplo delle conformazioni, nuovi tipi di dati e task, e modelli all'avanguardia. Il dataset include energie, forze, 17 proprietà molecolari, matrici hamiltoniane e di sovrapposizione, e un oggetto funzione d'onda. Tutti i calcoli sono stati eseguiti a livello DFT (omegaB97X-D/def2-SVP) per ogni conformazione. Inoltre, nabla^2DFT è il primo dataset che contiene traiettorie di rilassamento per un numero significativo di molecole simili a farmaci. Introduciamo anche un nuovo benchmark per valutare gli NNP nella previsione delle proprietà molecolari, nella previsione dell'hamiltoniano e nei task di ottimizzazione conformazionale. Infine, proponiamo un framework estendibile per l'addestramento degli NNP e implementiamo 10 modelli al suo interno.
English
Methods of computational quantum chemistry provide accurate approximations of
molecular properties crucial for computer-aided drug discovery and other areas
of chemical science. However, high computational complexity limits the
scalability of their applications. Neural network potentials (NNPs) are a
promising alternative to quantum chemistry methods, but they require large and
diverse datasets for training. This work presents a new dataset and benchmark
called nabla^2DFT that is based on the nablaDFT. It contains twice as much
molecular structures, three times more conformations, new data types and tasks,
and state-of-the-art models. The dataset includes energies, forces, 17
molecular properties, Hamiltonian and overlap matrices, and a wavefunction
object. All calculations were performed at the DFT level
(omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the
first dataset that contains relaxation trajectories for a substantial number of
drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in
molecular property prediction, Hamiltonian prediction, and conformational
optimization tasks. Finally, we propose an extendable framework for training
NNPs and implement 10 models within it.