Generazione di Molecole π-Funzionali Utilizzando STGG+ con Apprendimento Attivo
Generating π-Functional Molecules Using STGG+ with Active Learning
February 20, 2025
Autori: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI
Abstract
Generare molecole nuove con proprietà fuori distribuzione rappresenta una sfida significativa nella scoperta molecolare. Mentre i metodi di apprendimento supervisionato generano molecole di alta qualità simili a quelle presenti in un dataset, faticano a generalizzare verso proprietà fuori distribuzione. L'apprendimento per rinforzo può esplorare nuovi spazi chimici, ma spesso incorre in "reward-hacking" e genera molecole non sintetizzabili. In questo lavoro, affrontiamo questo problema integrando un metodo di apprendimento supervisionato all'avanguardia, STGG+, in un ciclo di active learning. Il nostro approccio genera, valuta e perfeziona iterativamente STGG+ per espandere continuamente la sua conoscenza. Denotiamo questo approccio come STGG+AL. Applichiamo STGG+AL alla progettazione di materiali organici pi-funzionali, in particolare a due compiti impegnativi: 1) generare molecole altamente assorbenti caratterizzate da un'elevata forza oscillatoria e 2) progettare molecole assorbenti con una forza oscillatoria ragionevole nell'intervallo del vicino infrarosso (NIR). Le molecole generate vengono validate e razionalizzate in silico utilizzando la teoria del funzionale della densità dipendente dal tempo. I nostri risultati dimostrano che il nostro metodo è altamente efficace nel generare molecole nuove con un'elevata forza oscillatoria, a differenza dei metodi esistenti come quelli basati sull'apprendimento per rinforzo (RL). Rendiamo open-source il nostro codice di active learning insieme al dataset Conjugated-xTB, che contiene 2,9 milioni di molecole pi-coniugate, e la funzione per approssimare la forza oscillatoria e la lunghezza d'onda di assorbimento (basata su sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major
challenge in molecular discovery. While supervised learning methods generate
high-quality molecules similar to those in a dataset, they struggle to
generalize to out-of-distribution properties. Reinforcement learning can
explore new chemical spaces but often conducts 'reward-hacking' and generates
non-synthesizable molecules. In this work, we address this problem by
integrating a state-of-the-art supervised learning method, STGG+, in an active
learning loop. Our approach iteratively generates, evaluates, and fine-tunes
STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We
apply STGG+AL to the design of organic pi-functional materials, specifically
two challenging tasks: 1) generating highly absorptive molecules characterized
by high oscillator strength and 2) designing absorptive molecules with
reasonable oscillator strength in the near-infrared (NIR) range. The generated
molecules are validated and rationalized in-silico with time-dependent density
functional theory. Our results demonstrate that our method is highly effective
in generating novel molecules with high oscillator strength, contrary to
existing methods such as reinforcement learning (RL) methods. We open-source
our active-learning code along with our Conjugated-xTB dataset containing 2.9
million pi-conjugated molecules and the function for approximating the
oscillator strength and absorption wavelength (based on sTDA-xTB).Summary
AI-Generated Summary