ChatPaper.aiChatPaper

Génération de molécules π-fonctionnelles avec STGG+ et apprentissage actif

Generating π-Functional Molecules Using STGG+ with Active Learning

February 20, 2025
Auteurs: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI

Résumé

La génération de nouvelles molécules présentant des propriétés hors distribution constitue un défi majeur dans la découverte moléculaire. Bien que les méthodes d'apprentissage supervisé produisent des molécules de haute qualité similaires à celles d'un jeu de données, elles peinent à généraliser aux propriétés hors distribution. L'apprentissage par renforcement peut explorer de nouveaux espaces chimiques, mais conduit souvent à du "hacking de récompense" et génère des molécules non synthétisables. Dans ce travail, nous abordons ce problème en intégrant une méthode d'apprentissage supervisé de pointe, STGG+, dans une boucle d'apprentissage actif. Notre approche génère, évalue et affine itérativement STGG+ pour étendre continuellement ses connaissances. Nous désignons cette approche par STGG+AL. Nous appliquons STGG+AL à la conception de matériaux organiques pi-fonctionnels, en particulier à deux tâches complexes : 1) générer des molécules hautement absorbantes caractérisées par une force d'oscillateur élevée et 2) concevoir des molécules absorbantes avec une force d'oscillateur raisonnable dans la gamme du proche infrarouge (NIR). Les molécules générées sont validées et rationalisées in silico par la théorie de la fonctionnelle de la densité dépendante du temps. Nos résultats démontrent que notre méthode est très efficace pour générer de nouvelles molécules avec une force d'oscillateur élevée, contrairement aux méthodes existantes telles que l'apprentissage par renforcement (RL). Nous mettons à disposition en open source notre code d'apprentissage actif ainsi que notre jeu de données Conjugated-xTB contenant 2,9 millions de molécules pi-conjuguées et la fonction d'approximation de la force d'oscillateur et de la longueur d'onde d'absorption (basée sur sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major challenge in molecular discovery. While supervised learning methods generate high-quality molecules similar to those in a dataset, they struggle to generalize to out-of-distribution properties. Reinforcement learning can explore new chemical spaces but often conducts 'reward-hacking' and generates non-synthesizable molecules. In this work, we address this problem by integrating a state-of-the-art supervised learning method, STGG+, in an active learning loop. Our approach iteratively generates, evaluates, and fine-tunes STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We apply STGG+AL to the design of organic pi-functional materials, specifically two challenging tasks: 1) generating highly absorptive molecules characterized by high oscillator strength and 2) designing absorptive molecules with reasonable oscillator strength in the near-infrared (NIR) range. The generated molecules are validated and rationalized in-silico with time-dependent density functional theory. Our results demonstrate that our method is highly effective in generating novel molecules with high oscillator strength, contrary to existing methods such as reinforcement learning (RL) methods. We open-source our active-learning code along with our Conjugated-xTB dataset containing 2.9 million pi-conjugated molecules and the function for approximating the oscillator strength and absorption wavelength (based on sTDA-xTB).

Summary

AI-Generated Summary

PDF42February 21, 2025