Vers un raisonnement mécaniste autonome dans les cellules virtuelles

Résumé

Les grands modèles de langage (LLM) ont récemment suscité une attention considérable en tant qu'approche prometteuse pour accélérer la découverte scientifique. Cependant, leur application dans des domaines scientifiques ouverts comme la biologie reste limitée, principalement en raison de l'absence d'explications factuellement fondées et actionnables. Pour remédier à cela, nous introduisons un formalisme d'explication structurée pour les cellules virtuelles qui représente le raisonnement biologique sous forme de graphes d'action mécanistes, permettant une vérification et une falsification systématiques. Sur cette base, nous proposons VCR-Agent, un cadre multi-agent qui intègre une récupération de connaissances biologiquement fondée avec une approche de filtrage basée sur un vérificateur pour générer et valider de manière autonome un raisonnement mécaniste. En utilisant ce cadre, nous publions le jeu de données VC-TRACES, qui consiste en des explications mécanistes vérifiées dérivées de l'atlas Tahoe-100M. Empiriquement, nous démontrons que l'entraînement avec ces explications améliore la précision factuelle et fournit un signal de supervision plus efficace pour la prédiction en aval de l'expression génique. Ces résultats soulignent l'importance d'un raisonnement mécaniste fiable pour les cellules virtuelles, obtenu grâce à la synergie entre l'approche multi-agent et une vérification rigoureuse.

English

Large language models (LLMs) have recently gained significant attention as a promising approach to accelerate scientific discovery. However, their application in open-ended scientific domains such as biology remains limited, primarily due to the lack of factually grounded and actionable explanations. To address this, we introduce a structured explanation formalism for virtual cells that represents biological reasoning as mechanistic action graphs, enabling systematic verification and falsification. Building upon this, we propose VCR-Agent, a multi-agent framework that integrates biologically grounded knowledge retrieval with a verifier-based filtering approach to generate and validate mechanistic reasoning autonomously. Using this framework, we release VC-TRACES dataset, which consists of verified mechanistic explanations derived from the Tahoe-100M atlas. Empirically, we demonstrate that training with these explanations improves factual precision and provides a more effective supervision signal for downstream gene expression prediction. These results underscore the importance of reliable mechanistic reasoning for virtual cells, achieved through the synergy of multi-agent and rigorous verification.

Vers un raisonnement mécaniste autonome dans les cellules virtuelles

Towards Autonomous Mechanistic Reasoning in Virtual Cells

Résumé

Support