ChatPaper.aiChatPaper

Erzeugung von π-funktionalen Molekülen mit STGG+ und aktivem Lernen

Generating π-Functional Molecules Using STGG+ with Active Learning

February 20, 2025
Autoren: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI

Zusammenfassung

Die Erzeugung neuartiger Moleküle mit Eigenschaften außerhalb der Verteilung ist eine große Herausforderung in der Molekülentdeckung. Während überwachte Lernmethoden hochwertige Moleküle erzeugen, die denen in einem Datensatz ähneln, haben sie Schwierigkeiten, sich auf Eigenschaften außerhalb der Verteilung zu verallgemeinern. Reinforcement Learning kann neue chemische Räume erkunden, führt jedoch oft zu „Reward-Hacking“ und erzeugt nicht synthetisierbare Moleküle. In dieser Arbeit adressieren wir dieses Problem, indem wir eine state-of-the-art überwachte Lernmethode, STGG+, in eine aktive Lernschleife integrieren. Unser Ansatz generiert, bewertet und feinjustiert STGG+ iterativ, um dessen Wissen kontinuierlich zu erweitern. Wir bezeichnen diesen Ansatz als STGG+AL. Wir wenden STGG+AL auf das Design organischer π-funktionaler Materialien an, insbesondere auf zwei anspruchsvolle Aufgaben: 1) die Erzeugung hoch absorbierender Moleküle, die durch eine hohe Oszillatorstärke charakterisiert sind, und 2) das Design absorbierender Moleküle mit einer vernünftigen Oszillatorstärke im nahen Infrarotbereich (NIR). Die generierten Moleküle werden in silico mit zeitabhängiger Dichtefunktionaltheorie validiert und rationalisiert. Unsere Ergebnisse zeigen, dass unsere Methode äußerst effektiv darin ist, neuartige Moleküle mit hoher Oszillatorstärke zu erzeugen, im Gegensatz zu bestehenden Methoden wie Reinforcement Learning (RL). Wir stellen unseren Active-Learning-Code zusammen mit unserem Conjugated-xTB-Datensatz, der 2,9 Millionen π-konjugierte Moleküle enthält, sowie die Funktion zur Approximation der Oszillatorstärke und der Absorptionswellenlänge (basierend auf sTDA-xTB) als Open Source zur Verfügung.
English
Generating novel molecules with out-of-distribution properties is a major challenge in molecular discovery. While supervised learning methods generate high-quality molecules similar to those in a dataset, they struggle to generalize to out-of-distribution properties. Reinforcement learning can explore new chemical spaces but often conducts 'reward-hacking' and generates non-synthesizable molecules. In this work, we address this problem by integrating a state-of-the-art supervised learning method, STGG+, in an active learning loop. Our approach iteratively generates, evaluates, and fine-tunes STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We apply STGG+AL to the design of organic pi-functional materials, specifically two challenging tasks: 1) generating highly absorptive molecules characterized by high oscillator strength and 2) designing absorptive molecules with reasonable oscillator strength in the near-infrared (NIR) range. The generated molecules are validated and rationalized in-silico with time-dependent density functional theory. Our results demonstrate that our method is highly effective in generating novel molecules with high oscillator strength, contrary to existing methods such as reinforcement learning (RL) methods. We open-source our active-learning code along with our Conjugated-xTB dataset containing 2.9 million pi-conjugated molecules and the function for approximating the oscillator strength and absorption wavelength (based on sTDA-xTB).

Summary

AI-Generated Summary

PDF42February 21, 2025