nabla^2DFT: Un Conjunto de Datos Universal de Química Cuántica para Moléculas Similares a Fármacos y un Punto de Referencia para Potenciales de Redes Neuronales
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
June 20, 2024
Autores: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI
Resumen
Los métodos de química cuántica computacional proporcionan aproximaciones precisas de propiedades moleculares cruciales para el descubrimiento de fármacos asistido por computadora y otras áreas de la ciencia química. Sin embargo, la alta complejidad computacional limita la escalabilidad de sus aplicaciones. Los potenciales de redes neuronales (NNPs, por sus siglas en inglés) son una alternativa prometedora a los métodos de química cuántica, pero requieren grandes y diversos conjuntos de datos para su entrenamiento. Este trabajo presenta un nuevo conjunto de datos y punto de referencia llamado nabla^2DFT, basado en nablaDFT. Contiene el doble de estructuras moleculares, tres veces más conformaciones, nuevos tipos de datos y tareas, y modelos de vanguardia. El conjunto de datos incluye energías, fuerzas, 17 propiedades moleculares, matrices hamiltonianas y de solapamiento, y un objeto de función de onda. Todos los cálculos se realizaron a nivel DFT (omegaB97X-D/def2-SVP) para cada conformación. Además, nabla^2DFT es el primer conjunto de datos que contiene trayectorias de relajación para un número sustancial de moléculas similares a fármacos. También introducimos un nuevo punto de referencia para evaluar NNPs en tareas de predicción de propiedades moleculares, predicción hamiltoniana y optimización conformacional. Finalmente, proponemos un marco extensible para entrenar NNPs e implementamos 10 modelos dentro de él.
English
Methods of computational quantum chemistry provide accurate approximations of
molecular properties crucial for computer-aided drug discovery and other areas
of chemical science. However, high computational complexity limits the
scalability of their applications. Neural network potentials (NNPs) are a
promising alternative to quantum chemistry methods, but they require large and
diverse datasets for training. This work presents a new dataset and benchmark
called nabla^2DFT that is based on the nablaDFT. It contains twice as much
molecular structures, three times more conformations, new data types and tasks,
and state-of-the-art models. The dataset includes energies, forces, 17
molecular properties, Hamiltonian and overlap matrices, and a wavefunction
object. All calculations were performed at the DFT level
(omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the
first dataset that contains relaxation trajectories for a substantial number of
drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in
molecular property prediction, Hamiltonian prediction, and conformational
optimization tasks. Finally, we propose an extendable framework for training
NNPs and implement 10 models within it.Summary
AI-Generated Summary