ChatPaper.aiChatPaper

M^4olGen: Мультиагентная многостадийная генерация молекул с соблюдением точных ограничений по множеству свойств

M^4olGen: Multi-Agent, Multi-Stage Molecular Generation under Precise Multi-Property Constraints

January 15, 2026
Авторы: Yizhan Li, Florence Cloutier, Sifan Wu, Ali Parviz, Boris Knyazev, Yan Zhang, Glen Berseth, Bang Liu
cs.AI

Аннотация

Генерация молекул, удовлетворяющих точным числовым ограничениям по нескольким физико-химическим свойствам, является важной и сложной задачей. Хотя большие языковые модели (LLM) обладают высокой выразительностью, они испытывают трудности с точным многоцелевым управлением и численными рассуждениями без внешней структуры и обратной связи. Мы представляем MolGen — фрагментный, дополненный поиском двухэтапный фреймворк для генерации молекул при ограничениях на множественные свойства. Этап I: Генерация прототипа: мульти-агентный модуль рассуждений выполняет анкерованные поиском фрагментные модификации для создания кандидата вблизи допустимой области. Этап II: Тонкая оптимизация на основе обучения с подкреплением (RL): фрагментный оптимизатор, обученный с помощью Group Relative Policy Optimization (GRPO), применяет одно- или многошаговые уточнения для явной минимизации отклонений свойств от целевых значений, одновременно регулируя сложность редактирования и отклонение от прототипа. Оба этапа основаны на большом автоматически курируемом наборе данных, содержащем цепочки рассуждений о фрагментных модификациях и измеренные изменения свойств, что обеспечивает детерминированное, воспроизводимое управление и контролируемые многошаговые рассуждения. В отличие от предыдущих работ, наш фреймворк лучше анализирует молекулы, используя фрагменты, и поддерживает контролируемое уточнение для достижения числовых целей. Эксперименты по генерации при двух наборах ограничений на свойства (QED, LogP, молекулярная масса и HOMO, LUMO) демонстрируют стабильное улучшение валидности и точного соответствия многоцелевым свойствам, превосходя сильные LLM и графовые алгоритмы.
English
Generating molecules that satisfy precise numeric constraints over multiple physicochemical properties is critical and challenging. Although large language models (LLMs) are expressive, they struggle with precise multi-objective control and numeric reasoning without external structure and feedback. We introduce M olGen, a fragment-level, retrieval-augmented, two-stage framework for molecule generation under multi-property constraints. Stage I : Prototype generation: a multi-agent reasoner performs retrieval-anchored, fragment-level edits to produce a candidate near the feasible region. Stage II : RL-based fine-grained optimization: a fragment-level optimizer trained with Group Relative Policy Optimization (GRPO) applies one- or multi-hop refinements to explicitly minimize the property errors toward our target while regulating edit complexity and deviation from the prototype. A large, automatically curated dataset with reasoning chains of fragment edits and measured property deltas underpins both stages, enabling deterministic, reproducible supervision and controllable multi-hop reasoning. Unlike prior work, our framework better reasons about molecules by leveraging fragments and supports controllable refinement toward numeric targets. Experiments on generation under two sets of property constraints (QED, LogP, Molecular Weight and HOMO, LUMO) show consistent gains in validity and precise satisfaction of multi-property targets, outperforming strong LLMs and graph-based algorithms.
PDF91January 17, 2026