ChatPaper.aiChatPaper

Генерация π-функциональных молекул с использованием STGG+ и активного обучения

Generating π-Functional Molecules Using STGG+ with Active Learning

February 20, 2025
Авторы: Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
cs.AI

Аннотация

Генерация новых молекул с характеристиками, выходящими за пределы распределения данных, представляет собой серьезную задачу в области молекулярного дизайна. Хотя методы обучения с учителем позволяют создавать высококачественные молекулы, схожие с теми, что присутствуют в наборе данных, они плохо справляются с обобщением на свойства, выходящие за пределы распределения. Методы обучения с подкреплением могут исследовать новые химические пространства, но часто сталкиваются с проблемой "взлома вознаграждения" и генерируют молекулы, которые невозможно синтезировать. В данной работе мы решаем эту проблему, интегрируя современный метод обучения с учителем, STGG+, в активный обучающий цикл. Наш подход итеративно генерирует, оценивает и дорабатывает STGG+, чтобы непрерывно расширять его знания. Мы обозначаем этот подход как STGG+AL. Мы применяем STGG+AL к проектированию органических π-функциональных материалов, в частности, к двум сложным задачам: 1) генерации молекул с высокой поглощающей способностью, характеризующихся высокой силой осциллятора, и 2) проектированию поглощающих молекул с разумной силой осциллятора в ближнем инфракрасном (NIR) диапазоне. Сгенерированные молекулы проверяются и анализируются in silico с использованием теории функционала плотности, зависящей от времени. Наши результаты демонстрируют, что наш метод высокоэффективен в генерации новых молекул с высокой силой осциллятора, в отличие от существующих методов, таких как обучение с подкреплением (RL). Мы открываем исходный код нашего активного обучения вместе с набором данных Conjugated-xTB, содержащим 2,9 миллиона π-сопряженных молекул, и функцией для аппроксимации силы осциллятора и длины волны поглощения (на основе sTDA-xTB).
English
Generating novel molecules with out-of-distribution properties is a major challenge in molecular discovery. While supervised learning methods generate high-quality molecules similar to those in a dataset, they struggle to generalize to out-of-distribution properties. Reinforcement learning can explore new chemical spaces but often conducts 'reward-hacking' and generates non-synthesizable molecules. In this work, we address this problem by integrating a state-of-the-art supervised learning method, STGG+, in an active learning loop. Our approach iteratively generates, evaluates, and fine-tunes STGG+ to continuously expand its knowledge. We denote this approach STGG+AL. We apply STGG+AL to the design of organic pi-functional materials, specifically two challenging tasks: 1) generating highly absorptive molecules characterized by high oscillator strength and 2) designing absorptive molecules with reasonable oscillator strength in the near-infrared (NIR) range. The generated molecules are validated and rationalized in-silico with time-dependent density functional theory. Our results demonstrate that our method is highly effective in generating novel molecules with high oscillator strength, contrary to existing methods such as reinforcement learning (RL) methods. We open-source our active-learning code along with our Conjugated-xTB dataset containing 2.9 million pi-conjugated molecules and the function for approximating the oscillator strength and absorption wavelength (based on sTDA-xTB).

Summary

AI-Generated Summary

PDF42February 21, 2025