Het genereren van π-functionele moleculen met STGG+ en actief leren
Generating π-Functional Molecules Using STGG+ with Active Learning
February 20, 2025
Auteurs: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI
Samenvatting
Het genereren van nieuwe moleculen met eigenschappen die buiten de verdeling vallen, is een grote uitdaging in moleculaire ontdekking. Hoewel methoden voor supervised learning hoogwaardige moleculen genereren die vergelijkbaar zijn met die in een dataset, hebben ze moeite om te generaliseren naar eigenschappen buiten de verdeling. Reinforcement learning kan nieuwe chemische ruimtes verkennen, maar voert vaak 'reward-hacking' uit en genereert niet-synthetiseerbare moleculen. In dit werk pakken we dit probleem aan door een state-of-the-art supervised learning-methode, STGG+, te integreren in een active learning-lus. Onze aanpak genereert, evalueert en verfijnt STGG+ iteratief om continu kennis uit te breiden. We duiden deze aanpak aan als STGG+AL. We passen STGG+AL toe op het ontwerp van organische pi-functionele materialen, specifiek twee uitdagende taken: 1) het genereren van sterk absorberende moleculen gekenmerkt door een hoge oscillatorsterkte en 2) het ontwerpen van absorberende moleculen met een redelijke oscillatorsterkte in het nabij-infrarood (NIR) bereik. De gegenereerde moleculen worden in-silico gevalideerd en gerationaliseerd met tijdafhankelijke dichtheidsfunctionaaltheorie. Onze resultaten tonen aan dat onze methode zeer effectief is in het genereren van nieuwe moleculen met een hoge oscillatorsterkte, in tegenstelling tot bestaande methoden zoals reinforcement learning (RL) methoden. We maken onze active learning-code openbaar, samen met onze Conjugated-xTB dataset die 2,9 miljoen pi-geconjugeerde moleculen bevat en de functie voor het benaderen van de oscillatorsterkte en absorptiegolflengte (gebaseerd op sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major
challenge in molecular discovery. While supervised learning methods generate
high-quality molecules similar to those in a dataset, they struggle to
generalize to out-of-distribution properties. Reinforcement learning can
explore new chemical spaces but often conducts 'reward-hacking' and generates
non-synthesizable molecules. In this work, we address this problem by
integrating a state-of-the-art supervised learning method, STGG+, in an active
learning loop. Our approach iteratively generates, evaluates, and fine-tunes
STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We
apply STGG+AL to the design of organic pi-functional materials, specifically
two challenging tasks: 1) generating highly absorptive molecules characterized
by high oscillator strength and 2) designing absorptive molecules with
reasonable oscillator strength in the near-infrared (NIR) range. The generated
molecules are validated and rationalized in-silico with time-dependent density
functional theory. Our results demonstrate that our method is highly effective
in generating novel molecules with high oscillator strength, contrary to
existing methods such as reinforcement learning (RL) methods. We open-source
our active-learning code along with our Conjugated-xTB dataset containing 2.9
million pi-conjugated molecules and the function for approximating the
oscillator strength and absorption wavelength (based on sTDA-xTB).Summary
AI-Generated Summary