M^4olGen: Geração Molecular Multiagente e Multiestágio sob Restrições Multipropriedades Precisas

Resumo

A geração de moléculas que satisfaçam restrições numéricas precisas em múltiplas propriedades físico-químicas é crucial e desafiadora. Embora os grandes modelos de linguagem (LLMs) sejam expressivos, eles lutam com o controle multi-objetivo preciso e o raciocínio numérico sem estrutura e *feedback* externos. Apresentamos o M olGen, uma estrutura fragmentada, aumentada por recuperação, de dois estágios para geração de moléculas sob restrições de múltiplas propriedades. Estágio I: Geração de protótipo: um raciocinador multiagente realiza edições fragmentadas, ancoradas em recuperação, para produzir um candidato próximo à região viável. Estágio II: Otimização de granularidade fina baseada em RL: um otimizador em nível de fragmento, treinado com Otimização de Política Relativa de Grupo (GRPO), aplica refinamentos de um ou múltiplos saltos para minimizar explicitamente os erros das propriedades em direção ao nosso alvo, enquanto regula a complexidade da edição e o desvio do protótipo. Um grande conjunto de dados, curado automaticamente, com cadeias de raciocínio de edições de fragmentos e deltas de propriedades medidas sustenta ambos os estágios, permitindo supervisão determinística e reproduzível e raciocínio controlável de múltiplos saltos. Ao contrário de trabalhos anteriores, nossa estrutura raciocina melhor sobre as moléculas, aproveitando os fragmentos, e suporta refinamento controlável em direção a alvos numéricos. Experimentos sobre geração sob dois conjuntos de restrições de propriedades (QED, LogP, Peso Molecular e HOMO, LUMO) mostram ganhos consistentes em validade e satisfação precisa de alvos multi-propriedade, superando LLMs robustos e algoritmos baseados em grafos.

English

Generating molecules that satisfy precise numeric constraints over multiple physicochemical properties is critical and challenging. Although large language models (LLMs) are expressive, they struggle with precise multi-objective control and numeric reasoning without external structure and feedback. We introduce M olGen, a fragment-level, retrieval-augmented, two-stage framework for molecule generation under multi-property constraints. Stage I : Prototype generation: a multi-agent reasoner performs retrieval-anchored, fragment-level edits to produce a candidate near the feasible region. Stage II : RL-based fine-grained optimization: a fragment-level optimizer trained with Group Relative Policy Optimization (GRPO) applies one- or multi-hop refinements to explicitly minimize the property errors toward our target while regulating edit complexity and deviation from the prototype. A large, automatically curated dataset with reasoning chains of fragment edits and measured property deltas underpins both stages, enabling deterministic, reproducible supervision and controllable multi-hop reasoning. Unlike prior work, our framework better reasons about molecules by leveraging fragments and supports controllable refinement toward numeric targets. Experiments on generation under two sets of property constraints (QED, LogP, Molecular Weight and HOMO, LUMO) show consistent gains in validity and precise satisfaction of multi-property targets, outperforming strong LLMs and graph-based algorithms.