nabla^2DFT: 신약 후보 물질의 보편적 양자 화학 데이터셋 및 신경망 포텐셜 벤치마크nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like
Molecules and a Benchmark for Neural Network Potentials
계산 양자 화학 방법론은 컴퓨터 보조 약물 발견 및 화학 과학의 다른 분야에서 중요한 분자 특성의 정확한 근사치를 제공합니다. 그러나 높은 계산 복잡성으로 인해 이들의 응용 확장성이 제한됩니다. 신경망 포텐셜(NNPs)은 양자 화학 방법론에 대한 유망한 대안이지만, 이를 위해서는 대규모의 다양한 데이터셋이 학습에 필요합니다. 본 연구는 nablaDFT를 기반으로 한 새로운 데이터셋 및 벤치마크인 nabla^2DFT를 제시합니다. 이 데이터셋은 두 배 많은 분자 구조, 세 배 많은 형태, 새로운 데이터 유형 및 과제, 그리고 최신 모델들을 포함합니다. 데이터셋은 에너지, 힘, 17가지 분자 특성, 해밀토니안 및 중첩 행렬, 그리고 파동함수 객체를 포함합니다. 모든 계산은 각 형태에 대해 DFT 수준(omegaB97X-D/def2-SVP)에서 수행되었습니다. 더욱이, nabla^2DFT는 상당수의 약물 유사 분자에 대한 이완 궤적을 포함하는 최초의 데이터셋입니다. 또한, 우리는 분자 특성 예측, 해밀토니안 예측, 그리고 형태 최적화 과제에서 NNPs를 평가하기 위한 새로운 벤치마크를 소개합니다. 마지막으로, 우리는 NNPs 학습을 위한 확장 가능한 프레임워크를 제안하고, 그 안에 10개의 모델을 구현합니다.