Mozi : Autonomie gouvernée pour les agents LLM de découverte de médicaments
Mozi: Governed Autonomy for Drug Discovery LLM Agents
March 4, 2026
Auteurs: He Cao, Siyu Liu, Fan Zhang, Zijing Liu, Hao Li, Bin Feng, Shengyuan Bai, Leqing Chen, Kai Xie, Yu Li
cs.AI
Résumé
Les agents de grands modèles de langage (LLM) assistés par outils promettent d'unifier le raisonnement scientifique avec le calcul, mais leur déploiement dans des domaines à haut risque comme la découverte de médicaments est freiné par deux obstacles critiques : une gouvernance non contrainte de l'utilisation des outils et une faible fiabilité sur le long terme. Dans les processus pharmaceutiques fortement interdépendants, les agents autonomes dérivent souvent vers des trajectoires non reproductibles, où les hallucinations des premières étapes s'amplifient de manière multiplicative en échecs en aval. Pour surmonter cela, nous présentons Mozi, une architecture à double couche qui relie la flexibilité de l'IA générative à la rigueur déterministe de la biologie computationnelle. La couche A (Plan de Contrôle) établit une hiérarchie supervisée gouvernée qui impose un isolement des outils basé sur les rôles, limite l'exécution à des espaces d'action contraints et pilote une replanification par réflexion. La couche B (Plan des Flux de Travail) opérationnalise les étapes canoniques de la découverte de médicaments – de l'Identification de Cible à l'Optimisation des Candidates – sous forme de graphes de compétences composables avec état. Cette couche intègre des contrats de données stricts et des points de contrôle stratégiques humain-dans-la-boucle (HITL) pour préserver la validité scientifique aux frontières décisionnelles de forte incertitude.
Fonctionnant sur le principe de conception « raisonnement libre pour les tâches sûres, exécution structurée pour les processus longs », Mozi intègre des mécanismes de robustesse et une auditabilité au niveau de la trace pour atténuer complètement l'accumulation d'erreurs. Nous évaluons Mozi sur PharmaBench, un benchmark organisé pour les agents biomédicaux, démontrant une précision d'orchestration supérieure aux solutions de référence existantes. De plus, via des études de cas thérapeutiques de bout en bout, nous démontrons la capacité de Mozi à naviguer dans d'immenses espaces chimiques, à appliquer des filtres de toxicité stricts et à générer des candidats in silico hautement compétitifs, transformant ainsi efficacement le LLM d'un interlocuteur fragile en un co-scientifique fiable et gouverné.
English
Tool-augmented large language model (LLM) agents promise to unify scientific reasoning with computation, yet their deployment in high-stakes domains like drug discovery is bottlenecked by two critical barriers: unconstrained tool-use governance and poor long-horizon reliability. In dependency-heavy pharmaceutical pipelines, autonomous agents often drift into irreproducible trajectories, where early-stage hallucinations multiplicatively compound into downstream failures. To overcome this, we present Mozi, a dual-layer architecture that bridges the flexibility of generative AI with the deterministic rigor of computational biology. Layer A (Control Plane) establishes a governed supervisor--worker hierarchy that enforces role-based tool isolation, limits execution to constrained action spaces, and drives reflection-based replanning. Layer B (Workflow Plane) operationalizes canonical drug discovery stages -- from Target Identification to Lead Optimization -- as stateful, composable skill graphs. This layer integrates strict data contracts and strategic human-in-the-loop (HITL) checkpoints to safeguard scientific validity at high-uncertainty decision boundaries.
Operating on the design principle of ``free-form reasoning for safe tasks, structured execution for long-horizon pipelines,'' Mozi provides built-in robustness mechanisms and trace-level audibility to completely mitigate error accumulation. We evaluate Mozi on PharmaBench, a curated benchmark for biomedical agents, demonstrating superior orchestration accuracy over existing baselines. Furthermore, through end-to-end therapeutic case studies, we demonstrate Mozi's ability to navigate massive chemical spaces, enforce stringent toxicity filters, and generate highly competitive in silico candidates, effectively transforming the LLM from a fragile conversationalist into a reliable, governed co-scientist.