ChatPaper.aiChatPaper

Het genereren van π-functionele moleculen met STGG+ en actief leren

Generating π-Functional Molecules Using STGG+ with Active Learning

February 20, 2025
Auteurs: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI

Samenvatting

Het genereren van nieuwe moleculen met eigenschappen die buiten de verdeling vallen, is een grote uitdaging in moleculaire ontdekking. Hoewel methoden voor supervised learning hoogwaardige moleculen genereren die vergelijkbaar zijn met die in een dataset, hebben ze moeite om te generaliseren naar eigenschappen buiten de verdeling. Reinforcement learning kan nieuwe chemische ruimtes verkennen, maar voert vaak 'reward-hacking' uit en genereert niet-synthetiseerbare moleculen. In dit werk pakken we dit probleem aan door een state-of-the-art supervised learning-methode, STGG+, te integreren in een active learning-lus. Onze aanpak genereert, evalueert en verfijnt STGG+ iteratief om continu kennis uit te breiden. We duiden deze aanpak aan als STGG+AL. We passen STGG+AL toe op het ontwerp van organische pi-functionele materialen, specifiek twee uitdagende taken: 1) het genereren van sterk absorberende moleculen gekenmerkt door een hoge oscillatorsterkte en 2) het ontwerpen van absorberende moleculen met een redelijke oscillatorsterkte in het nabij-infrarood (NIR) bereik. De gegenereerde moleculen worden in-silico gevalideerd en gerationaliseerd met tijdafhankelijke dichtheidsfunctionaaltheorie. Onze resultaten tonen aan dat onze methode zeer effectief is in het genereren van nieuwe moleculen met een hoge oscillatorsterkte, in tegenstelling tot bestaande methoden zoals reinforcement learning (RL) methoden. We maken onze active learning-code openbaar, samen met onze Conjugated-xTB dataset die 2,9 miljoen pi-geconjugeerde moleculen bevat en de functie voor het benaderen van de oscillatorsterkte en absorptiegolflengte (gebaseerd op sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major challenge in molecular discovery. While supervised learning methods generate high-quality molecules similar to those in a dataset, they struggle to generalize to out-of-distribution properties. Reinforcement learning can explore new chemical spaces but often conducts 'reward-hacking' and generates non-synthesizable molecules. In this work, we address this problem by integrating a state-of-the-art supervised learning method, STGG+, in an active learning loop. Our approach iteratively generates, evaluates, and fine-tunes STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We apply STGG+AL to the design of organic pi-functional materials, specifically two challenging tasks: 1) generating highly absorptive molecules characterized by high oscillator strength and 2) designing absorptive molecules with reasonable oscillator strength in the near-infrared (NIR) range. The generated molecules are validated and rationalized in-silico with time-dependent density functional theory. Our results demonstrate that our method is highly effective in generating novel molecules with high oscillator strength, contrary to existing methods such as reinforcement learning (RL) methods. We open-source our active-learning code along with our Conjugated-xTB dataset containing 2.9 million pi-conjugated molecules and the function for approximating the oscillator strength and absorption wavelength (based on sTDA-xTB).

Summary

AI-Generated Summary

PDF42February 21, 2025