Auf dem Weg zu autonomen mechanistischen Schlussfolgerungen in virtuellen Zellen

Zusammenfassung

Große Sprachmodelle (LLMs) haben in letzter Zeit als vielversprechender Ansatz zur Beschleunigung wissenschaftlicher Entdeckungen erheblich an Aufmerksamkeit gewonnen. Ihre Anwendung in offenen wissenschaftlichen Domänen wie der Biologie bleibt jedoch begrenzt, vor allem aufgrund des Mangels an faktenbasierten und umsetzbaren Erklärungen. Um dies zu adressieren, führen wir einen strukturierten Erklärungsformalismus für virtuelle Zellen ein, der biologisches Schließen als mechanistische Aktionsgraphen darstellt und systematische Verifikation und Falsifikation ermöglicht. Darauf aufbauend schlagen wir VCR-Agent vor, ein Multi-Agenten-Framework, das biologisch fundierte Wissensabfrage mit einem verifikationsbasierten Filteransatz integriert, um mechanistisches Schließen autonom zu generieren und zu validieren. Mit diesem Framework veröffentlichen wir den VC-TRACES-Datensatz, der aus verifizierten mechanistischen Erklärungen besteht, die vom Tahoe-100M-Atlas abgeleitet wurden. Empirisch zeigen wir, dass das Training mit diesen Erklärungen die faktische Präzision verbessert und ein effektiveres Supervision-Signal für die nachgelagerte Genexpressionsvorhersage liefert. Diese Ergebnisse unterstreichen die Bedeutung zuverlässigen mechanistischen Schließens für virtuelle Zellen, erreicht durch die Synergie von Multi-Agenten-Systemen und rigoroser Verifikation.

English

Large language models (LLMs) have recently gained significant attention as a promising approach to accelerate scientific discovery. However, their application in open-ended scientific domains such as biology remains limited, primarily due to the lack of factually grounded and actionable explanations. To address this, we introduce a structured explanation formalism for virtual cells that represents biological reasoning as mechanistic action graphs, enabling systematic verification and falsification. Building upon this, we propose VCR-Agent, a multi-agent framework that integrates biologically grounded knowledge retrieval with a verifier-based filtering approach to generate and validate mechanistic reasoning autonomously. Using this framework, we release VC-TRACES dataset, which consists of verified mechanistic explanations derived from the Tahoe-100M atlas. Empirically, we demonstrate that training with these explanations improves factual precision and provides a more effective supervision signal for downstream gene expression prediction. These results underscore the importance of reliable mechanistic reasoning for virtual cells, achieved through the synergy of multi-agent and rigorous verification.

Auf dem Weg zu autonomen mechanistischen Schlussfolgerungen in virtuellen Zellen

Towards Autonomous Mechanistic Reasoning in Virtual Cells

Zusammenfassung

Support