Erzeugung von π-funktionalen Molekülen mit STGG+ und aktivem Lernen
Generating π-Functional Molecules Using STGG+ with Active Learning
February 20, 2025
Autoren: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI
Zusammenfassung
Die Erzeugung neuartiger Moleküle mit Eigenschaften außerhalb der Verteilung ist eine große Herausforderung in der Molekülentdeckung. Während überwachte Lernmethoden hochwertige Moleküle erzeugen, die denen in einem Datensatz ähneln, haben sie Schwierigkeiten, sich auf Eigenschaften außerhalb der Verteilung zu verallgemeinern. Reinforcement Learning kann neue chemische Räume erkunden, führt jedoch oft zu „Reward-Hacking“ und erzeugt nicht synthetisierbare Moleküle. In dieser Arbeit adressieren wir dieses Problem, indem wir eine state-of-the-art überwachte Lernmethode, STGG+, in eine aktive Lernschleife integrieren. Unser Ansatz generiert, bewertet und feinjustiert STGG+ iterativ, um dessen Wissen kontinuierlich zu erweitern. Wir bezeichnen diesen Ansatz als STGG+AL. Wir wenden STGG+AL auf das Design organischer π-funktionaler Materialien an, insbesondere auf zwei anspruchsvolle Aufgaben: 1) die Erzeugung hoch absorbierender Moleküle, die durch eine hohe Oszillatorstärke charakterisiert sind, und 2) das Design absorbierender Moleküle mit einer vernünftigen Oszillatorstärke im nahen Infrarotbereich (NIR). Die generierten Moleküle werden in silico mit zeitabhängiger Dichtefunktionaltheorie validiert und rationalisiert. Unsere Ergebnisse zeigen, dass unsere Methode äußerst effektiv darin ist, neuartige Moleküle mit hoher Oszillatorstärke zu erzeugen, im Gegensatz zu bestehenden Methoden wie Reinforcement Learning (RL). Wir stellen unseren Active-Learning-Code zusammen mit unserem Conjugated-xTB-Datensatz, der 2,9 Millionen π-konjugierte Moleküle enthält, sowie die Funktion zur Approximation der Oszillatorstärke und der Absorptionswellenlänge (basierend auf sTDA-xTB) als Open Source zur Verfügung.
English
Generating novel molecules with out-of-distribution properties is a major
challenge in molecular discovery. While supervised learning methods generate
high-quality molecules similar to those in a dataset, they struggle to
generalize to out-of-distribution properties. Reinforcement learning can
explore new chemical spaces but often conducts 'reward-hacking' and generates
non-synthesizable molecules. In this work, we address this problem by
integrating a state-of-the-art supervised learning method, STGG+, in an active
learning loop. Our approach iteratively generates, evaluates, and fine-tunes
STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We
apply STGG+AL to the design of organic pi-functional materials, specifically
two challenging tasks: 1) generating highly absorptive molecules characterized
by high oscillator strength and 2) designing absorptive molecules with
reasonable oscillator strength in the near-infrared (NIR) range. The generated
molecules are validated and rationalized in-silico with time-dependent density
functional theory. Our results demonstrate that our method is highly effective
in generating novel molecules with high oscillator strength, contrary to
existing methods such as reinforcement learning (RL) methods. We open-source
our active-learning code along with our Conjugated-xTB dataset containing 2.9
million pi-conjugated molecules and the function for approximating the
oscillator strength and absorption wavelength (based on sTDA-xTB).Summary
AI-Generated Summary