Rumo ao Raciocínio Mecanicista Autônomo em Células Virtuais

Resumo

Os grandes modelos de linguagem (LLMs) têm recebido atenção significativa recentemente como uma abordagem promissora para acelerar a descoberta científica. No entanto, a sua aplicação em domínios científicos de natureza aberta, como a biologia, permanece limitada, principalmente devido à falta de explicações factualmente fundamentadas e acionáveis. Para resolver esta limitação, introduzimos um formalismo de explicação estruturada para células virtuais que representa o raciocínio biológico como grafos de ação mecanicista, permitindo a verificação e falseamento sistemáticos. Com base nisto, propomos o VCR-Agent, uma arquitetura de multiagentes que integra a recuperação de conhecimento biologicamente fundamentado com uma abordagem de filtragem baseada em verificador para gerar e validar raciocínios mecanicistas de forma autónoma. Utilizando esta arquitetura, disponibilizamos o conjunto de dados VC-TRACES, que consiste em explicações mecanicistas verificadas derivadas do atlas Tahoe-100M. Empiricamente, demonstramos que o treino com estas explicações melhora a precisão factual e fornece um sinal de supervisão mais eficaz para a tarefa subsequente de previsão de expressão génica. Estes resultados sublinham a importância do raciocínio mecanicista fiável para células virtuais, alcançado através da sinergia entre multiagentes e verificação rigorosa.

English

Large language models (LLMs) have recently gained significant attention as a promising approach to accelerate scientific discovery. However, their application in open-ended scientific domains such as biology remains limited, primarily due to the lack of factually grounded and actionable explanations. To address this, we introduce a structured explanation formalism for virtual cells that represents biological reasoning as mechanistic action graphs, enabling systematic verification and falsification. Building upon this, we propose VCR-Agent, a multi-agent framework that integrates biologically grounded knowledge retrieval with a verifier-based filtering approach to generate and validate mechanistic reasoning autonomously. Using this framework, we release VC-TRACES dataset, which consists of verified mechanistic explanations derived from the Tahoe-100M atlas. Empirically, we demonstrate that training with these explanations improves factual precision and provides a more effective supervision signal for downstream gene expression prediction. These results underscore the importance of reliable mechanistic reasoning for virtual cells, achieved through the synergy of multi-agent and rigorous verification.

Rumo ao Raciocínio Mecanicista Autônomo em Células Virtuais

Towards Autonomous Mechanistic Reasoning in Virtual Cells

Resumo

Support