Auf dem Weg zu autonomen mechanistischen Schlussfolgerungen in virtuellen Zellen
Towards Autonomous Mechanistic Reasoning in Virtual Cells
April 14, 2026
Autoren: Yunhui Jang, Lu Zhu, Jake Fawkes, Alisandra Kaye Denton, Dominique Beaini, Emmanuel Noutahi
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben in letzter Zeit als vielversprechender Ansatz zur Beschleunigung wissenschaftlicher Entdeckungen erheblich an Aufmerksamkeit gewonnen. Ihre Anwendung in offenen wissenschaftlichen Domänen wie der Biologie bleibt jedoch begrenzt, vor allem aufgrund des Mangels an faktenbasierten und umsetzbaren Erklärungen. Um dies zu adressieren, führen wir einen strukturierten Erklärungsformalismus für virtuelle Zellen ein, der biologisches Schließen als mechanistische Aktionsgraphen darstellt und systematische Verifikation und Falsifikation ermöglicht. Darauf aufbauend schlagen wir VCR-Agent vor, ein Multi-Agenten-Framework, das biologisch fundierte Wissensabfrage mit einem verifikationsbasierten Filteransatz integriert, um mechanistisches Schließen autonom zu generieren und zu validieren. Mit diesem Framework veröffentlichen wir den VC-TRACES-Datensatz, der aus verifizierten mechanistischen Erklärungen besteht, die vom Tahoe-100M-Atlas abgeleitet wurden. Empirisch zeigen wir, dass das Training mit diesen Erklärungen die faktische Präzision verbessert und ein effektiveres Supervision-Signal für die nachgelagerte Genexpressionsvorhersage liefert. Diese Ergebnisse unterstreichen die Bedeutung zuverlässigen mechanistischen Schließens für virtuelle Zellen, erreicht durch die Synergie von Multi-Agenten-Systemen und rigoroser Verifikation.
English
Large language models (LLMs) have recently gained significant attention as a promising approach to accelerate scientific discovery. However, their application in open-ended scientific domains such as biology remains limited, primarily due to the lack of factually grounded and actionable explanations. To address this, we introduce a structured explanation formalism for virtual cells that represents biological reasoning as mechanistic action graphs, enabling systematic verification and falsification. Building upon this, we propose VCR-Agent, a multi-agent framework that integrates biologically grounded knowledge retrieval with a verifier-based filtering approach to generate and validate mechanistic reasoning autonomously. Using this framework, we release VC-TRACES dataset, which consists of verified mechanistic explanations derived from the Tahoe-100M atlas. Empirically, we demonstrate that training with these explanations improves factual precision and provides a more effective supervision signal for downstream gene expression prediction. These results underscore the importance of reliable mechanistic reasoning for virtual cells, achieved through the synergy of multi-agent and rigorous verification.