ChatPaper.aiChatPaper

nabla^2DFT: Un Dataset Universale di Chimica Quantistica per Molecole Simili a Farmaci e un Benchmark per Potenziali di Reti Neurali

nabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials

June 20, 2024
Autori: Kuzma Khrabrov, Anton Ber, Artem Tsypin, Konstantin Ushenin, Egor Rumiantsev, Alexander Telepov, Dmitry Protasov, Ilya Shenbin, Anton Alekseev, Mikhail Shirokikh, Sergey Nikolenko, Elena Tutubalina, Artur Kadurin
cs.AI

Abstract

I metodi della chimica quantistica computazionale forniscono approssimazioni accurate delle proprietà molecolari cruciali per la scoperta di farmaci assistita da computer e altre aree delle scienze chimiche. Tuttavia, l'elevata complessità computazionale limita la scalabilità delle loro applicazioni. I potenziali di rete neurale (NNP) rappresentano una promettente alternativa ai metodi della chimica quantica, ma richiedono grandi e diversificati dataset per l'addestramento. Questo lavoro presenta un nuovo dataset e benchmark chiamato nabla^2DFT, basato su nablaDFT. Esso contiene il doppio delle strutture molecolari, il triplo delle conformazioni, nuovi tipi di dati e task, e modelli all'avanguardia. Il dataset include energie, forze, 17 proprietà molecolari, matrici hamiltoniane e di sovrapposizione, e un oggetto funzione d'onda. Tutti i calcoli sono stati eseguiti a livello DFT (omegaB97X-D/def2-SVP) per ogni conformazione. Inoltre, nabla^2DFT è il primo dataset che contiene traiettorie di rilassamento per un numero significativo di molecole simili a farmaci. Introduciamo anche un nuovo benchmark per valutare gli NNP nella previsione delle proprietà molecolari, nella previsione dell'hamiltoniano e nei task di ottimizzazione conformazionale. Infine, proponiamo un framework estendibile per l'addestramento degli NNP e implementiamo 10 modelli al suo interno.
English
Methods of computational quantum chemistry provide accurate approximations of molecular properties crucial for computer-aided drug discovery and other areas of chemical science. However, high computational complexity limits the scalability of their applications. Neural network potentials (NNPs) are a promising alternative to quantum chemistry methods, but they require large and diverse datasets for training. This work presents a new dataset and benchmark called nabla^2DFT that is based on the nablaDFT. It contains twice as much molecular structures, three times more conformations, new data types and tasks, and state-of-the-art models. The dataset includes energies, forces, 17 molecular properties, Hamiltonian and overlap matrices, and a wavefunction object. All calculations were performed at the DFT level (omegaB97X-D/def2-SVP) for each conformation. Moreover, nabla^2DFT is the first dataset that contains relaxation trajectories for a substantial number of drug-like molecules. We also introduce a novel benchmark for evaluating NNPs in molecular property prediction, Hamiltonian prediction, and conformational optimization tasks. Finally, we propose an extendable framework for training NNPs and implement 10 models within it.
PDF1024December 2, 2024