ChatPaper.aiChatPaper

Generazione di Molecole π-Funzionali Utilizzando STGG+ con Apprendimento Attivo

Generating π-Functional Molecules Using STGG+ with Active Learning

February 20, 2025
Autori: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI

Abstract

Generare molecole nuove con proprietà fuori distribuzione rappresenta una sfida significativa nella scoperta molecolare. Mentre i metodi di apprendimento supervisionato generano molecole di alta qualità simili a quelle presenti in un dataset, faticano a generalizzare verso proprietà fuori distribuzione. L'apprendimento per rinforzo può esplorare nuovi spazi chimici, ma spesso incorre in "reward-hacking" e genera molecole non sintetizzabili. In questo lavoro, affrontiamo questo problema integrando un metodo di apprendimento supervisionato all'avanguardia, STGG+, in un ciclo di active learning. Il nostro approccio genera, valuta e perfeziona iterativamente STGG+ per espandere continuamente la sua conoscenza. Denotiamo questo approccio come STGG+AL. Applichiamo STGG+AL alla progettazione di materiali organici pi-funzionali, in particolare a due compiti impegnativi: 1) generare molecole altamente assorbenti caratterizzate da un'elevata forza oscillatoria e 2) progettare molecole assorbenti con una forza oscillatoria ragionevole nell'intervallo del vicino infrarosso (NIR). Le molecole generate vengono validate e razionalizzate in silico utilizzando la teoria del funzionale della densità dipendente dal tempo. I nostri risultati dimostrano che il nostro metodo è altamente efficace nel generare molecole nuove con un'elevata forza oscillatoria, a differenza dei metodi esistenti come quelli basati sull'apprendimento per rinforzo (RL). Rendiamo open-source il nostro codice di active learning insieme al dataset Conjugated-xTB, che contiene 2,9 milioni di molecole pi-coniugate, e la funzione per approssimare la forza oscillatoria e la lunghezza d'onda di assorbimento (basata su sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major challenge in molecular discovery. While supervised learning methods generate high-quality molecules similar to those in a dataset, they struggle to generalize to out-of-distribution properties. Reinforcement learning can explore new chemical spaces but often conducts 'reward-hacking' and generates non-synthesizable molecules. In this work, we address this problem by integrating a state-of-the-art supervised learning method, STGG+, in an active learning loop. Our approach iteratively generates, evaluates, and fine-tunes STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We apply STGG+AL to the design of organic pi-functional materials, specifically two challenging tasks: 1) generating highly absorptive molecules characterized by high oscillator strength and 2) designing absorptive molecules with reasonable oscillator strength in the near-infrared (NIR) range. The generated molecules are validated and rationalized in-silico with time-dependent density functional theory. Our results demonstrate that our method is highly effective in generating novel molecules with high oscillator strength, contrary to existing methods such as reinforcement learning (RL) methods. We open-source our active-learning code along with our Conjugated-xTB dataset containing 2.9 million pi-conjugated molecules and the function for approximating the oscillator strength and absorption wavelength (based on sTDA-xTB).

Summary

AI-Generated Summary

PDF42February 21, 2025