nabla^2DFT: Un Conjunto de Datos Universal de Química Cuántica para Moléculas Similares a Fármacos y un Punto de Referencia para Potenciales de Redes Neuronalesnabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like
Molecules and a Benchmark for Neural Network Potentials
Los métodos de química cuántica computacional proporcionan aproximaciones precisas de propiedades moleculares cruciales para el descubrimiento de fármacos asistido por computadora y otras áreas de la ciencia química. Sin embargo, la alta complejidad computacional limita la escalabilidad de sus aplicaciones. Los potenciales de redes neuronales (NNPs, por sus siglas en inglés) son una alternativa prometedora a los métodos de química cuántica, pero requieren grandes y diversos conjuntos de datos para su entrenamiento. Este trabajo presenta un nuevo conjunto de datos y punto de referencia llamado nabla^2DFT, basado en nablaDFT. Contiene el doble de estructuras moleculares, tres veces más conformaciones, nuevos tipos de datos y tareas, y modelos de vanguardia. El conjunto de datos incluye energías, fuerzas, 17 propiedades moleculares, matrices hamiltonianas y de solapamiento, y un objeto de función de onda. Todos los cálculos se realizaron a nivel DFT (omegaB97X-D/def2-SVP) para cada conformación. Además, nabla^2DFT es el primer conjunto de datos que contiene trayectorias de relajación para un número sustancial de moléculas similares a fármacos. También introducimos un nuevo punto de referencia para evaluar NNPs en tareas de predicción de propiedades moleculares, predicción hamiltoniana y optimización conformacional. Finalmente, proponemos un marco extensible para entrenar NNPs e implementamos 10 modelos dentro de él.