Mozi: Bestuurde Autonomie voor LLM-agenten in Geneesmiddelenontdekking
Mozi: Governed Autonomy for Drug Discovery LLM Agents
March 4, 2026
Auteurs: He Cao, Siyu Liu, Fan Zhang, Zijing Liu, Hao Li, Bin Feng, Shengyuan Bai, Leqing Chen, Kai Xie, Yu Li
cs.AI
Samenvatting
Tool-augmented large language model (LLM)-agenten beloven wetenschappelijke redenering te verenigen met computationele kracht, maar hun inzet in hoogrisicodomeinen zoals geneesmiddelenontdekking wordt gehinderd door twee kritieke barrières: ongebreideld toolgebruik en onbetrouwbaarheid over lange tijdshorizonnen. In farmaceutische pijplijnen met zware afhankelijkheden vervallen autonome agenten vaak in onreproduceerbare trajecten, waarbij hallucinaties in vroege fasen zich vermenigvuldigend vertalen in downstream fouten. Om dit te overwinnen, presenteren we Mozi, een dual-layer architectuur die de flexibiliteit van generatieve AI verbindt met de deterministische nauwkeurigheid van computationele biologie. Laag A (Control Plane) vestigt een beheerde supervisor-workerhiërarchie die rolgebaseerde toolisolatie afdwingt, uitvoering beperkt tot afgebakende actieruimten en reflectie-gebaseerd herplannen aanstuurt. Laag B (Workflow Plane) operationaliseert canonieke geneesmiddelenontdekkingsfasen – van Targetidentificatie tot Leadoptimalisatie – als stateful, composeerbare vaardigheidsgrafen. Deze laag integreert strikte datacontracten en strategische human-in-the-loop (HITL)-checkpoints om de wetenschappelijke validiteit bij beslissingsgrenzen met hoge onzekerheid te waarborgen.
Op basis van het ontwerpprincipe "vrije-vorm redenering voor veilige taken, gestructureerde uitvoering voor pijplijnen met lange tijdshorizonnen" biedt Mozi ingebouwde robuustheidsmechanismen en traceerbare audibility om foutaccumulatie volledig te mitigeren. We evalueren Mozi op PharmaBench, een samengestelde benchmark voor biomedische agenten, en tonen superieure orkestratienauwkeurigheid aan ten opzichte van bestaande baseline-methoden. Verder demonstreren we via end-to-end therapeutische casestudies Mozi's vermogen om enorme chemische ruimten te navigeren, stringente toxiciteitsfilters af te dwingen en zeer competitieve in silico-kandidaten te genereren, waardoor de LLM effectief transformeert van een kwetsbare gesprekspartner naar een betrouwbare, beheerde mede-wetenschapper.
English
Tool-augmented large language model (LLM) agents promise to unify scientific reasoning with computation, yet their deployment in high-stakes domains like drug discovery is bottlenecked by two critical barriers: unconstrained tool-use governance and poor long-horizon reliability. In dependency-heavy pharmaceutical pipelines, autonomous agents often drift into irreproducible trajectories, where early-stage hallucinations multiplicatively compound into downstream failures. To overcome this, we present Mozi, a dual-layer architecture that bridges the flexibility of generative AI with the deterministic rigor of computational biology. Layer A (Control Plane) establishes a governed supervisor--worker hierarchy that enforces role-based tool isolation, limits execution to constrained action spaces, and drives reflection-based replanning. Layer B (Workflow Plane) operationalizes canonical drug discovery stages -- from Target Identification to Lead Optimization -- as stateful, composable skill graphs. This layer integrates strict data contracts and strategic human-in-the-loop (HITL) checkpoints to safeguard scientific validity at high-uncertainty decision boundaries.
Operating on the design principle of ``free-form reasoning for safe tasks, structured execution for long-horizon pipelines,'' Mozi provides built-in robustness mechanisms and trace-level audibility to completely mitigate error accumulation. We evaluate Mozi on PharmaBench, a curated benchmark for biomedical agents, demonstrating superior orchestration accuracy over existing baselines. Furthermore, through end-to-end therapeutic case studies, we demonstrate Mozi's ability to navigate massive chemical spaces, enforce stringent toxicity filters, and generate highly competitive in silico candidates, effectively transforming the LLM from a fragile conversationalist into a reliable, governed co-scientist.