ChatPaper.aiChatPaper

nabla^2DFT: Un Conjunto de Datos Universal de Química Cuántica para Moléculas Similares a Fármacos y un Punto de Referencia para Potenciales de Redes Neuronales

nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials

June 20, 2024
Autores: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI

Resumen

Los métodos de química cuántica computacional proporcionan aproximaciones precisas de propiedades moleculares cruciales para el descubrimiento de fármacos asistido por computadora y otras áreas de la ciencia química. Sin embargo, la alta complejidad computacional limita la escalabilidad de sus aplicaciones. Los potenciales de redes neuronales (NNPs, por sus siglas en inglés) son una alternativa prometedora a los métodos de química cuántica, pero requieren grandes y diversos conjuntos de datos para su entrenamiento. Este trabajo presenta un nuevo conjunto de datos y punto de referencia llamado nabla^2DFT, basado en nablaDFT. Contiene el doble de estructuras moleculares, tres veces más conformaciones, nuevos tipos de datos y tareas, y modelos de vanguardia. El conjunto de datos incluye energías, fuerzas, 17 propiedades moleculares, matrices hamiltonianas y de solapamiento, y un objeto de función de onda. Todos los cálculos se realizaron a nivel DFT (omegaB97X-D/def2-SVP) para cada conformación. Además, nabla^2DFT es el primer conjunto de datos que contiene trayectorias de relajación para un número sustancial de moléculas similares a fármacos. También introducimos un nuevo punto de referencia para evaluar NNPs en tareas de predicción de propiedades moleculares, predicción hamiltoniana y optimización conformacional. Finalmente, proponemos un marco extensible para entrenar NNPs e implementamos 10 modelos dentro de él.
English
Methods of computational quantum chemistry provide accurate approximations of molecular properties crucial for computer-aided drug discovery and other areas of chemical science. However, high computational complexity limits the scalability of their applications. Neural network potentials (NNPs) are a promising alternative to quantum chemistry methods, but they require large and diverse datasets for training. This work presents a new dataset and benchmark called nabla^2DFT that is based on the nablaDFT. It contains twice as much molecular structures, three times more conformations, new data types and tasks, and state-of-the-art models. The dataset includes energies, forces, 17 molecular properties, Hamiltonian and overlap matrices, and a wavefunction object. All calculations were performed at the DFT level (omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the first dataset that contains relaxation trajectories for a substantial number of drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in molecular property prediction, Hamiltonian prediction, and conformational optimization tasks. Finally, we propose an extendable framework for training NNPs and implement 10 models within it.

Summary

AI-Generated Summary

PDF1024December 2, 2024