Geração de Moléculas π-Funcionais Utilizando STGG+ com Aprendizado Ativo
Generating π-Functional Molecules Using STGG+ with Active Learning
February 20, 2025
Autores: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI
Resumo
A geração de moléculas novas com propriedades fora da distribuição é um grande desafio na descoberta molecular. Embora métodos de aprendizado supervisionado gerem moléculas de alta qualidade semelhantes às de um conjunto de dados, eles têm dificuldade em generalizar para propriedades fora da distribuição. O aprendizado por reforço pode explorar novos espaços químicos, mas frequentemente realiza "hacking de recompensa" e gera moléculas não sintetizáveis. Neste trabalho, abordamos esse problema integrando um método de aprendizado supervisionado de ponta, o STGG+, em um ciclo de aprendizado ativo. Nossa abordagem gera, avalia e ajusta iterativamente o STGG+ para expandir continuamente seu conhecimento. Denominamos essa abordagem de STGG+AL. Aplicamos o STGG+AL ao design de materiais orgânicos pi-funcionais, especificamente a duas tarefas desafiadoras: 1) gerar moléculas altamente absorventes caracterizadas por alta força osciladora e 2) projetar moléculas absorventes com força osciladora razoável na faixa do infravermelho próximo (NIR). As moléculas geradas são validadas e racionalizadas in silico com a teoria do funcional da densidade dependente do tempo. Nossos resultados demonstram que nosso método é altamente eficaz na geração de moléculas novas com alta força osciladora, ao contrário de métodos existentes, como os de aprendizado por reforço (RL). Disponibilizamos publicamente nosso código de aprendizado ativo, juntamente com nosso conjunto de dados Conjugated-xTB, que contém 2,9 milhões de moléculas pi-conjugadas, e a função para aproximar a força osciladora e o comprimento de onda de absorção (baseada no sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major
challenge in molecular discovery. While supervised learning methods generate
high-quality molecules similar to those in a dataset, they struggle to
generalize to out-of-distribution properties. Reinforcement learning can
explore new chemical spaces but often conducts 'reward-hacking' and generates
non-synthesizable molecules. In this work, we address this problem by
integrating a state-of-the-art supervised learning method, STGG+, in an active
learning loop. Our approach iteratively generates, evaluates, and fine-tunes
STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We
apply STGG+AL to the design of organic pi-functional materials, specifically
two challenging tasks: 1) generating highly absorptive molecules characterized
by high oscillator strength and 2) designing absorptive molecules with
reasonable oscillator strength in the near-infrared (NIR) range. The generated
molecules are validated and rationalized in-silico with time-dependent density
functional theory. Our results demonstrate that our method is highly effective
in generating novel molecules with high oscillator strength, contrary to
existing methods such as reinforcement learning (RL) methods. We open-source
our active-learning code along with our Conjugated-xTB dataset containing 2.9
million pi-conjugated molecules and the function for approximating the
oscillator strength and absorption wavelength (based on sTDA-xTB).Summary
AI-Generated Summary