Op Weg naar Autonoom Mechanistisch Redeneren in Virtuele Cellen

Samenvatting

Grote taalmodellen (LLM's) hebben recentelijk aanzienlijke aandacht gekregen als een veelbelovende benadering om wetenschappelijke ontdekkingen te versnellen. Hun toepassing in open-eindige wetenschappelijke domeinen zoals de biologie blijft echter beperkt, voornamelijk vanwege het gebrek aan feitelijk onderbouwde en actiegerichte verklaringen. Om dit aan te pakken, introduceren we een gestructureerd verklaringsformalisme voor virtuele cellen dat biologisch redeneren vertegenwoordigt als mechanistische actiegrafen, wat systematische verificatie en falsificatie mogelijk maakt. Voortbordurend hierop stellen we VCR-Agent voor, een multi-agent framework dat biologisch onderbouwde kennisextractie integreert met een op-verificatie-gebaseerde filteraanpak om autonoom mechanistisch redeneren te genereren en valideren. Met behulp van dit framework publiceren we de VC-TRACES-dataset, die bestaat uit geverifieerde mechanistische verklaringen afgeleid van de Tahoe-100M-atlas. Empirisch tonen we aan dat training met deze verklaringen de feitelijke precisie verbetert en een effectiever supervisiesignaal oplevert voor downstream genexpressievoorspelling. Deze resultaten onderstrepen het belang van betrouwbaar mechanistisch redeneren voor virtuele cellen, bereikt door de synergie van multi-agent systemen en rigoureuze verificatie.

English

Large language models (LLMs) have recently gained significant attention as a promising approach to accelerate scientific discovery. However, their application in open-ended scientific domains such as biology remains limited, primarily due to the lack of factually grounded and actionable explanations. To address this, we introduce a structured explanation formalism for virtual cells that represents biological reasoning as mechanistic action graphs, enabling systematic verification and falsification. Building upon this, we propose VCR-Agent, a multi-agent framework that integrates biologically grounded knowledge retrieval with a verifier-based filtering approach to generate and validate mechanistic reasoning autonomously. Using this framework, we release VC-TRACES dataset, which consists of verified mechanistic explanations derived from the Tahoe-100M atlas. Empirically, we demonstrate that training with these explanations improves factual precision and provides a more effective supervision signal for downstream gene expression prediction. These results underscore the importance of reliable mechanistic reasoning for virtual cells, achieved through the synergy of multi-agent and rigorous verification.

Op Weg naar Autonoom Mechanistisch Redeneren in Virtuele Cellen

Towards Autonomous Mechanistic Reasoning in Virtual Cells

Samenvatting

Support