nabla^2DFT: 신약 후보 물질의 보편적 양자 화학 데이터셋 및 신경망 포텐셜 벤치마크
nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials
June 20, 2024
저자: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI
초록
계산 양자 화학 방법론은 컴퓨터 보조 약물 발견 및 화학 과학의 다른 분야에서 중요한 분자 특성의 정확한 근사치를 제공합니다. 그러나 높은 계산 복잡성으로 인해 이들의 응용 확장성이 제한됩니다. 신경망 포텐셜(NNPs)은 양자 화학 방법론에 대한 유망한 대안이지만, 이를 위해서는 대규모의 다양한 데이터셋이 학습에 필요합니다. 본 연구는 nablaDFT를 기반으로 한 새로운 데이터셋 및 벤치마크인 nabla^2DFT를 제시합니다. 이 데이터셋은 두 배 많은 분자 구조, 세 배 많은 형태, 새로운 데이터 유형 및 과제, 그리고 최신 모델들을 포함합니다. 데이터셋은 에너지, 힘, 17가지 분자 특성, 해밀토니안 및 중첩 행렬, 그리고 파동함수 객체를 포함합니다. 모든 계산은 각 형태에 대해 DFT 수준(omegaB97X-D/def2-SVP)에서 수행되었습니다. 더욱이, nabla^2DFT는 상당수의 약물 유사 분자에 대한 이완 궤적을 포함하는 최초의 데이터셋입니다. 또한, 우리는 분자 특성 예측, 해밀토니안 예측, 그리고 형태 최적화 과제에서 NNPs를 평가하기 위한 새로운 벤치마크를 소개합니다. 마지막으로, 우리는 NNPs 학습을 위한 확장 가능한 프레임워크를 제안하고, 그 안에 10개의 모델을 구현합니다.
English
Methods of computational quantum chemistry provide accurate approximations of
molecular properties crucial for computer-aided drug discovery and other areas
of chemical science. However, high computational complexity limits the
scalability of their applications. Neural network potentials (NNPs) are a
promising alternative to quantum chemistry methods, but they require large and
diverse datasets for training. This work presents a new dataset and benchmark
called nabla^2DFT that is based on the nablaDFT. It contains twice as much
molecular structures, three times more conformations, new data types and tasks,
and state-of-the-art models. The dataset includes energies, forces, 17
molecular properties, Hamiltonian and overlap matrices, and a wavefunction
object. All calculations were performed at the DFT level
(omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the
first dataset that contains relaxation trajectories for a substantial number of
drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in
molecular property prediction, Hamiltonian prediction, and conformational
optimization tasks. Finally, we propose an extendable framework for training
NNPs and implement 10 models within it.Summary
AI-Generated Summary