nabla^2DFT: Um Conjunto de Dados Universal de Química Quântica de Moléculas Semelhantes a Medicamentos e um Benchmark para Potenciais de Redes Neurais
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
June 20, 2024
Autores: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI
Resumo
Os métodos de química quântica computacional fornecem aproximações precisas de propriedades moleculares cruciais para a descoberta de fármacos assistida por computador e outras áreas da ciência química. No entanto, a alta complexidade computacional limita a escalabilidade de suas aplicações. Potenciais de rede neural (NNPs) são uma alternativa promissora aos métodos de química quântica, mas exigem grandes e diversos conjuntos de dados para treinamento. Este trabalho apresenta um novo conjunto de dados e benchmark chamado nabla^2DFT, baseado no nablaDFT. Ele contém o dobro de estruturas moleculares, três vezes mais conformações, novos tipos de dados e tarefas, além de modelos de última geração. O conjunto de dados inclui energias, forças, 17 propriedades moleculares, matrizes de Hamiltoniano e de sobreposição, e um objeto de função de onda. Todos os cálculos foram realizados no nível DFT (omegaB97X-D/def2-SVP) para cada conformação. Além disso, nabla^2DFT é o primeiro conjunto de dados que contém trajetórias de relaxamento para um número substancial de moléculas semelhantes a fármacos. Também introduzimos um novo benchmark para avaliar NNPs em tarefas de previsão de propriedades moleculares, previsão de Hamiltoniano e otimização conformacional. Por fim, propomos uma estrutura extensível para treinamento de NNPs e implementamos 10 modelos dentro dela.
English
Methods of computational quantum chemistry provide accurate approximations of
molecular properties crucial for computer-aided drug discovery and other areas
of chemical science. However, high computational complexity limits the
scalability of their applications. Neural network potentials (NNPs) are a
promising alternative to quantum chemistry methods, but they require large and
diverse datasets for training. This work presents a new dataset and benchmark
called nabla^2DFT that is based on the nablaDFT. It contains twice as much
molecular structures, three times more conformations, new data types and tasks,
and state-of-the-art models. The dataset includes energies, forces, 17
molecular properties, Hamiltonian and overlap matrices, and a wavefunction
object. All calculations were performed at the DFT level
(omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the
first dataset that contains relaxation trajectories for a substantial number of
drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in
molecular property prediction, Hamiltonian prediction, and conformational
optimization tasks. Finally, we propose an extendable framework for training
NNPs and implement 10 models within it.