Verso un Ragionamento Meccanicistico Autonomo nelle Cellule Virtuali

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno recentemente attirato notevole attenzione come approccio promettente per accelerare la scoperta scientifica. Tuttavia, la loro applicazione in domini scientifici aperti come la biologia rimane limitata, principalmente a causa della mancanza di spiegazioni fondate sui fatti e azionabili. Per affrontare questo problema, introduciamo un formalismo strutturato per le spiegazioni delle cellule virtuali che rappresenta il ragionamento biologico come grafi d'azione meccanicistici, consentendo una verifica e una falsificazione sistematiche. Basandoci su questo, proponiamo VCR-Agent, un framework multi-agente che integra un recupero della conoscenza biologicamente fondato con un approccio di filtraggio basato su un verificatore per generare e convalidare in modo autonomo il ragionamento meccanicistico. Utilizzando questo framework, rilasciamo il dataset VC-TRACES, che consiste in spiegazioni meccanicistiche verificate derivate dall'atlante Tahoe-100M. Empiricamente, dimostriamo che l'addestramento con queste spiegazioni migliora la precisione fattuale e fornisce un segnale di supervisione più efficace per la previsione a valle dell'espressione genica. Questi risultati sottolineano l'importanza di un ragionamento meccanicistico affidabile per le cellule virtuali, ottenuto attraverso la sinergia tra multi-agente e verifica rigorosa.

English

Large language models (LLMs) have recently gained significant attention as a promising approach to accelerate scientific discovery. However, their application in open-ended scientific domains such as biology remains limited, primarily due to the lack of factually grounded and actionable explanations. To address this, we introduce a structured explanation formalism for virtual cells that represents biological reasoning as mechanistic action graphs, enabling systematic verification and falsification. Building upon this, we propose VCR-Agent, a multi-agent framework that integrates biologically grounded knowledge retrieval with a verifier-based filtering approach to generate and validate mechanistic reasoning autonomously. Using this framework, we release VC-TRACES dataset, which consists of verified mechanistic explanations derived from the Tahoe-100M atlas. Empirically, we demonstrate that training with these explanations improves factual precision and provides a more effective supervision signal for downstream gene expression prediction. These results underscore the importance of reliable mechanistic reasoning for virtual cells, achieved through the synergy of multi-agent and rigorous verification.

Verso un Ragionamento Meccanicistico Autonomo nelle Cellule Virtuali

Towards Autonomous Mechanistic Reasoning in Virtual Cells

Abstract

Support