Hacia el Razonamiento Mecanicista Autónomo en Células Virtuales

Resumen

Los modelos de lenguaje de gran tamaño (LLM) han recibido recientemente una atención significativa como un enfoque prometedor para acelerar el descubrimiento científico. Sin embargo, su aplicación en dominios científicos de carácter abierto, como la biología, sigue siendo limitada, principalmente debido a la falta de explicaciones fundamentadas en hechos y accionables. Para abordar esto, introducimos un formalismo de explicación estructurada para células virtuales que representa el razonamiento biológico como grafos de acción mecanicistas, permitiendo la verificación y falsificación sistemáticas. Sobre esta base, proponemos VCR-Agent, un marco de multi-agente que integra la recuperación de conocimiento biológicamente fundamentado con un enfoque de filtrado basado en un verificador para generar y validar el razonamiento mecanicista de forma autónoma. Utilizando este marco, publicamos el conjunto de datos VC-TRACES, que consiste en explicaciones mecanicistas verificadas derivadas del atlas Tahoe-100M. Empíricamente, demostramos que el entrenamiento con estas explicaciones mejora la precisión factual y proporciona una señal de supervisión más efectiva para la predicción descendente de la expresión génica. Estos resultados subrayan la importancia del razonamiento mecanicista confiable para las células virtuales, logrado a través de la sinergia entre múltiples agentes y una verificación rigurosa.

English

Large language models (LLMs) have recently gained significant attention as a promising approach to accelerate scientific discovery. However, their application in open-ended scientific domains such as biology remains limited, primarily due to the lack of factually grounded and actionable explanations. To address this, we introduce a structured explanation formalism for virtual cells that represents biological reasoning as mechanistic action graphs, enabling systematic verification and falsification. Building upon this, we propose VCR-Agent, a multi-agent framework that integrates biologically grounded knowledge retrieval with a verifier-based filtering approach to generate and validate mechanistic reasoning autonomously. Using this framework, we release VC-TRACES dataset, which consists of verified mechanistic explanations derived from the Tahoe-100M atlas. Empirically, we demonstrate that training with these explanations improves factual precision and provides a more effective supervision signal for downstream gene expression prediction. These results underscore the importance of reliable mechanistic reasoning for virtual cells, achieved through the synergy of multi-agent and rigorous verification.

Hacia el Razonamiento Mecanicista Autónomo en Células Virtuales

Towards Autonomous Mechanistic Reasoning in Virtual Cells

Resumen

Support