ChatPaper.aiChatPaper

nabla^2DFT: Универсальный набор данных по квантовой химии для молекул, подобных лекарствам, и эталон для потенциалов нейронных сетей

nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials

June 20, 2024
Авторы: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI

Аннотация

Методы вычислительной квантовой химии обеспечивают точные приближения молекулярных свойств, критически важных для компьютерного поиска лекарств и других областей химической науки. Однако высокая вычислительная сложность ограничивает масштабируемость их применения. Потенциалы нейронных сетей (NNP) представляют собой многообещающую альтернативу методам квантовой химии, но требуют больших и разнообразных наборов данных для обучения. В данной работе представлен новый набор данных и бенчмарк под названием nabla^2DFT, основанный на nablaDFT. Он содержит вдвое больше молекулярных структур, в три раза больше конформаций, новые типы данных и задачи, а также современные модели. Набор данных включает энергии, силы, 17 молекулярных свойств, матрицы Гамильтона и перекрытия, а также объект волновой функции. Все расчеты были выполнены на уровне DFT (omegaB97X-D/def2-SVP) для каждой конформации. Более того, nabla^2DFT является первым набором данных, содержащим траектории релаксации для значительного количества молекул, похожих на лекарства. Мы также представляем новый бенчмарк для оценки NNP в предсказании молекулярных свойств, предсказании Гамильтона и задачах конформационной оптимизации. Наконец, мы предлагаем расширяемую структуру для обучения NNP и реализуем 10 моделей в ее рамках.
English
Methods of computational quantum chemistry provide accurate approximations of molecular properties crucial for computer-aided drug discovery and other areas of chemical science. However, high computational complexity limits the scalability of their applications. Neural network potentials (NNPs) are a promising alternative to quantum chemistry methods, but they require large and diverse datasets for training. This work presents a new dataset and benchmark called nabla^2DFT that is based on the nablaDFT. It contains twice as much molecular structures, three times more conformations, new data types and tasks, and state-of-the-art models. The dataset includes energies, forces, 17 molecular properties, Hamiltonian and overlap matrices, and a wavefunction object. All calculations were performed at the DFT level (omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the first dataset that contains relaxation trajectories for a substantial number of drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in molecular property prediction, Hamiltonian prediction, and conformational optimization tasks. Finally, we propose an extendable framework for training NNPs and implement 10 models within it.

Summary

AI-Generated Summary

PDF1024December 2, 2024