ChatPaper.aiChatPaper

Generación de Moléculas π-Funcionales Utilizando STGG+ con Aprendizaje Activo

Generating π-Functional Molecules Using STGG+ with Active Learning

February 20, 2025
Autores: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI

Resumen

Generar moléculas novedosas con propiedades fuera de distribución es un desafío importante en el descubrimiento molecular. Si bien los métodos de aprendizaje supervisado generan moléculas de alta calidad similares a las de un conjunto de datos, tienen dificultades para generalizar a propiedades fuera de distribución. El aprendizaje por refuerzo puede explorar nuevos espacios químicos, pero a menudo incurre en "hackeo de recompensas" y genera moléculas no sintetizables. En este trabajo, abordamos este problema integrando un método de aprendizaje supervisado de vanguardia, STGG+, en un ciclo de aprendizaje activo. Nuestro enfoque genera, evalúa y ajusta iterativamente STGG+ para expandir continuamente su conocimiento. Denotamos este enfoque como STGG+AL. Aplicamos STGG+AL al diseño de materiales orgánicos pi-funcionales, específicamente a dos tareas desafiantes: 1) generar moléculas altamente absorbentes caracterizadas por una alta fuerza osciladora y 2) diseñar moléculas absorbentes con una fuerza osciladora razonable en el rango del infrarrojo cercano (NIR). Las moléculas generadas se validan y racionalizan in silico mediante la teoría del funcional de la densidad dependiente del tiempo. Nuestros resultados demuestran que nuestro método es altamente efectivo para generar moléculas novedosas con alta fuerza osciladora, a diferencia de métodos existentes como los de aprendizaje por refuerzo (RL). Hacemos público nuestro código de aprendizaje activo junto con nuestro conjunto de datos Conjugated-xTB, que contiene 2.9 millones de moléculas pi-conjugadas, y la función para aproximar la fuerza osciladora y la longitud de onda de absorción (basada en sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major challenge in molecular discovery. While supervised learning methods generate high-quality molecules similar to those in a dataset, they struggle to generalize to out-of-distribution properties. Reinforcement learning can explore new chemical spaces but often conducts 'reward-hacking' and generates non-synthesizable molecules. In this work, we address this problem by integrating a state-of-the-art supervised learning method, STGG+, in an active learning loop. Our approach iteratively generates, evaluates, and fine-tunes STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We apply STGG+AL to the design of organic pi-functional materials, specifically two challenging tasks: 1) generating highly absorptive molecules characterized by high oscillator strength and 2) designing absorptive molecules with reasonable oscillator strength in the near-infrared (NIR) range. The generated molecules are validated and rationalized in-silico with time-dependent density functional theory. Our results demonstrate that our method is highly effective in generating novel molecules with high oscillator strength, contrary to existing methods such as reinforcement learning (RL) methods. We open-source our active-learning code along with our Conjugated-xTB dataset containing 2.9 million pi-conjugated molecules and the function for approximating the oscillator strength and absorption wavelength (based on sTDA-xTB).

Summary

AI-Generated Summary

PDF42February 21, 2025