nabla^2DFT:一种包含药物样分子的通用量子化学数据集,同时也是神经网络势函数的基准测试。nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like
Molecules and a Benchmark for Neural Network Potentials
计算量子化学方法提供了对分子性质的准确近似,这对于计算辅助药物发现和化学科学的其他领域至关重要。然而,高计算复杂性限制了其应用的可扩展性。神经网络势(NNPs)是量子化学方法的一种有前途的替代方案,但它们需要大量和多样化的数据集进行训练。本研究提出了一个基于nablaDFT的新数据集和基准测试,名为nabla^2DFT。它包含两倍数量的分子结构、三倍数量的构象、新的数据类型和任务,以及最先进的模型。该数据集包括能量、力、17个分子性质、哈密顿量和重叠矩阵,以及一个波函数对象。所有计算均在每个构象的DFT水平(omegaB97X-D/def2-SVP)上执行。此外,nabla^2DFT是第一个包含大量类药物分子弛豫轨迹的数据集。我们还引入了一个新颖的基准测试,用于评估NNPs在分子性质预测、哈密顿量预测和构象优化任务中的表现。最后,我们提出了一个可扩展的框架用于训练NNPs,并在其中实现了10个模型。