Génération de molécules π-fonctionnelles avec STGG+ et apprentissage actif
Generating π-Functional Molecules Using STGG+ with Active Learning
February 20, 2025
Auteurs: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI
Résumé
La génération de nouvelles molécules présentant des propriétés hors distribution constitue un défi majeur dans la découverte moléculaire. Bien que les méthodes d'apprentissage supervisé produisent des molécules de haute qualité similaires à celles d'un jeu de données, elles peinent à généraliser aux propriétés hors distribution. L'apprentissage par renforcement peut explorer de nouveaux espaces chimiques, mais conduit souvent à du "hacking de récompense" et génère des molécules non synthétisables. Dans ce travail, nous abordons ce problème en intégrant une méthode d'apprentissage supervisé de pointe, STGG+, dans une boucle d'apprentissage actif. Notre approche génère, évalue et affine itérativement STGG+ pour étendre continuellement ses connaissances. Nous désignons cette approche par STGG+AL. Nous appliquons STGG+AL à la conception de matériaux organiques pi-fonctionnels, en particulier à deux tâches complexes : 1) générer des molécules hautement absorbantes caractérisées par une force d'oscillateur élevée et 2) concevoir des molécules absorbantes avec une force d'oscillateur raisonnable dans la gamme du proche infrarouge (NIR). Les molécules générées sont validées et rationalisées in silico par la théorie de la fonctionnelle de la densité dépendante du temps. Nos résultats démontrent que notre méthode est très efficace pour générer de nouvelles molécules avec une force d'oscillateur élevée, contrairement aux méthodes existantes telles que l'apprentissage par renforcement (RL). Nous mettons à disposition en open source notre code d'apprentissage actif ainsi que notre jeu de données Conjugated-xTB contenant 2,9 millions de molécules pi-conjuguées et la fonction d'approximation de la force d'oscillateur et de la longueur d'onde d'absorption (basée sur sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major
challenge in molecular discovery. While supervised learning methods generate
high-quality molecules similar to those in a dataset, they struggle to
generalize to out-of-distribution properties. Reinforcement learning can
explore new chemical spaces but often conducts 'reward-hacking' and generates
non-synthesizable molecules. In this work, we address this problem by
integrating a state-of-the-art supervised learning method, STGG+, in an active
learning loop. Our approach iteratively generates, evaluates, and fine-tunes
STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We
apply STGG+AL to the design of organic pi-functional materials, specifically
two challenging tasks: 1) generating highly absorptive molecules characterized
by high oscillator strength and 2) designing absorptive molecules with
reasonable oscillator strength in the near-infrared (NIR) range. The generated
molecules are validated and rationalized in-silico with time-dependent density
functional theory. Our results demonstrate that our method is highly effective
in generating novel molecules with high oscillator strength, contrary to
existing methods such as reinforcement learning (RL) methods. We open-source
our active-learning code along with our Conjugated-xTB dataset containing 2.9
million pi-conjugated molecules and the function for approximating the
oscillator strength and absorption wavelength (based on sTDA-xTB).Summary
AI-Generated Summary