nabla^2DFT: Ein universeller Datensatz für quantenchemische Untersuchungen von medikamentenähnlichen Molekülen und ein Benchmark für neuronale Netzwerkpotenzialenabla^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like
Molecules and a Benchmark for Neural Network Potentials
Methoden der rechnergestützten Quantenchemie liefern genaue Näherungen molekularer Eigenschaften, die für die computergestützte Arzneimittelforschung und andere Bereiche der chemischen Wissenschaft entscheidend sind. Allerdings begrenzt die hohe Rechenkomplexität die Skalierbarkeit ihrer Anwendungen. Neuronale Netzwerkpotenziale (NNPs) sind eine vielversprechende Alternative zu den Methoden der Quantenchemie, erfordern jedoch große und vielfältige Datensätze für das Training. Diese Arbeit präsentiert einen neuen Datensatz und Benchmark namens nabla^2DFT, der auf dem nablaDFT basiert. Er enthält doppelt so viele molekulare Strukturen, dreimal mehr Konformationen, neue Datentypen und Aufgaben sowie modernste Modelle. Der Datensatz umfasst Energien, Kräfte, 17 molekulare Eigenschaften, Hamilton- und Überlappungsmatrizen sowie ein Wellenfunktionsobjekt. Alle Berechnungen wurden auf DFT-Niveau (omegaB97X-D/def2-SVP) für jede Konformation durchgeführt. Darüber hinaus ist nabla^2DFT der erste Datensatz, der Relaxationstrajektorien für eine beträchtliche Anzahl von medikamentenähnlichen Molekülen enthält. Wir stellen auch einen neuen Benchmark zur Bewertung von NNPs in der Vorhersage molekularer Eigenschaften, der Hamilton-Vorhersage und der konformationellen Optimierungsaufgaben vor. Schließlich schlagen wir ein erweiterbares Framework für das Training von NNPs vor und implementieren 10 Modelle darin.