Rumo ao Raciocínio Mecanicista Autônomo em Células Virtuais
Towards Autonomous Mechanistic Reasoning in Virtual Cells
April 14, 2026
Autores: Yunhui Jang, Lu Zhu, Jake Fawkes, Alisandra Kaye Denton, Dominique Beaini, Emmanuel Noutahi
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) têm recebido atenção significativa recentemente como uma abordagem promissora para acelerar a descoberta científica. No entanto, a sua aplicação em domínios científicos de natureza aberta, como a biologia, permanece limitada, principalmente devido à falta de explicações factualmente fundamentadas e acionáveis. Para resolver esta limitação, introduzimos um formalismo de explicação estruturada para células virtuais que representa o raciocínio biológico como grafos de ação mecanicista, permitindo a verificação e falseamento sistemáticos. Com base nisto, propomos o VCR-Agent, uma arquitetura de multiagentes que integra a recuperação de conhecimento biologicamente fundamentado com uma abordagem de filtragem baseada em verificador para gerar e validar raciocínios mecanicistas de forma autónoma. Utilizando esta arquitetura, disponibilizamos o conjunto de dados VC-TRACES, que consiste em explicações mecanicistas verificadas derivadas do atlas Tahoe-100M. Empiricamente, demonstramos que o treino com estas explicações melhora a precisão factual e fornece um sinal de supervisão mais eficaz para a tarefa subsequente de previsão de expressão génica. Estes resultados sublinham a importância do raciocínio mecanicista fiável para células virtuais, alcançado através da sinergia entre multiagentes e verificação rigorosa.
English
Large language models (LLMs) have recently gained significant attention as a promising approach to accelerate scientific discovery. However, their application in open-ended scientific domains such as biology remains limited, primarily due to the lack of factually grounded and actionable explanations. To address this, we introduce a structured explanation formalism for virtual cells that represents biological reasoning as mechanistic action graphs, enabling systematic verification and falsification. Building upon this, we propose VCR-Agent, a multi-agent framework that integrates biologically grounded knowledge retrieval with a verifier-based filtering approach to generate and validate mechanistic reasoning autonomously. Using this framework, we release VC-TRACES dataset, which consists of verified mechanistic explanations derived from the Tahoe-100M atlas. Empirically, we demonstrate that training with these explanations improves factual precision and provides a more effective supervision signal for downstream gene expression prediction. These results underscore the importance of reliable mechanistic reasoning for virtual cells, achieved through the synergy of multi-agent and rigorous verification.