ChatPaper.aiChatPaper

Geração de Moléculas π-Funcionais Utilizando STGG+ com Aprendizado Ativo

Generating π-Functional Molecules Using STGG+ with Active Learning

February 20, 2025
Autores: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI

Resumo

A geração de moléculas novas com propriedades fora da distribuição é um grande desafio na descoberta molecular. Embora métodos de aprendizado supervisionado gerem moléculas de alta qualidade semelhantes às de um conjunto de dados, eles têm dificuldade em generalizar para propriedades fora da distribuição. O aprendizado por reforço pode explorar novos espaços químicos, mas frequentemente realiza "hacking de recompensa" e gera moléculas não sintetizáveis. Neste trabalho, abordamos esse problema integrando um método de aprendizado supervisionado de ponta, o STGG+, em um ciclo de aprendizado ativo. Nossa abordagem gera, avalia e ajusta iterativamente o STGG+ para expandir continuamente seu conhecimento. Denominamos essa abordagem de STGG+AL. Aplicamos o STGG+AL ao design de materiais orgânicos pi-funcionais, especificamente a duas tarefas desafiadoras: 1) gerar moléculas altamente absorventes caracterizadas por alta força osciladora e 2) projetar moléculas absorventes com força osciladora razoável na faixa do infravermelho próximo (NIR). As moléculas geradas são validadas e racionalizadas in silico com a teoria do funcional da densidade dependente do tempo. Nossos resultados demonstram que nosso método é altamente eficaz na geração de moléculas novas com alta força osciladora, ao contrário de métodos existentes, como os de aprendizado por reforço (RL). Disponibilizamos publicamente nosso código de aprendizado ativo, juntamente com nosso conjunto de dados Conjugated-xTB, que contém 2,9 milhões de moléculas pi-conjugadas, e a função para aproximar a força osciladora e o comprimento de onda de absorção (baseada no sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major challenge in molecular discovery. While supervised learning methods generate high-quality molecules similar to those in a dataset, they struggle to generalize to out-of-distribution properties. Reinforcement learning can explore new chemical spaces but often conducts 'reward-hacking' and generates non-synthesizable molecules. In this work, we address this problem by integrating a state-of-the-art supervised learning method, STGG+, in an active learning loop. Our approach iteratively generates, evaluates, and fine-tunes STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We apply STGG+AL to the design of organic pi-functional materials, specifically two challenging tasks: 1) generating highly absorptive molecules characterized by high oscillator strength and 2) designing absorptive molecules with reasonable oscillator strength in the near-infrared (NIR) range. The generated molecules are validated and rationalized in-silico with time-dependent density functional theory. Our results demonstrate that our method is highly effective in generating novel molecules with high oscillator strength, contrary to existing methods such as reinforcement learning (RL) methods. We open-source our active-learning code along with our Conjugated-xTB dataset containing 2.9 million pi-conjugated molecules and the function for approximating the oscillator strength and absorption wavelength (based on sTDA-xTB).

Summary

AI-Generated Summary

PDF42February 21, 2025