nabla^2DFT: Универсальный набор данных по квантовой химии для молекул, подобных лекарствам, и эталон для потенциалов нейронных сетейnabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like
Molecules and a Benchmark for Neural Network Potentials
Методы вычислительной квантовой химии обеспечивают точные приближения молекулярных свойств, критически важных для компьютерного поиска лекарств и других областей химической науки. Однако высокая вычислительная сложность ограничивает масштабируемость их применения. Потенциалы нейронных сетей (NNP) представляют собой многообещающую альтернативу методам квантовой химии, но требуют больших и разнообразных наборов данных для обучения. В данной работе представлен новый набор данных и бенчмарк под названием nabla^2DFT, основанный на nablaDFT. Он содержит вдвое больше молекулярных структур, в три раза больше конформаций, новые типы данных и задачи, а также современные модели. Набор данных включает энергии, силы, 17 молекулярных свойств, матрицы Гамильтона и перекрытия, а также объект волновой функции. Все расчеты были выполнены на уровне DFT (omegaB97X-D/def2-SVP) для каждой конформации. Более того, nabla^2DFT является первым набором данных, содержащим траектории релаксации для значительного количества молекул, похожих на лекарства. Мы также представляем новый бенчмарк для оценки NNP в предсказании молекулярных свойств, предсказании Гамильтона и задачах конформационной оптимизации. Наконец, мы предлагаем расширяемую структуру для обучения NNP и реализуем 10 моделей в ее рамках.