К автономному механистическому моделированию в виртуальных клетках

Аннотация

Крупные языковые модели (LLM) недавно привлекли значительное внимание как перспективный подход для ускорения научных открытий. Однако их применение в открытых научных областях, таких как биология, остается ограниченным, в первую очередь из-за отсутствия фактически обоснованных и практичных объяснений. Для решения этой проблемы мы представляем формализм структурированных объяснений для виртуальных клеток, который представляет биологические рассуждения в виде графов механистических действий, что позволяет проводить их систематическую верификацию и фальсификацию. На основе этого мы предлагаем VCR-Agent — мульти-агентный фреймворк, который интегрирует биологически обоснованный поиск знаний с подходом верификационного фильтрования для автономной генерации и проверки механистических рассуждений. Используя этот фреймворк, мы публикуем набор данных VC-TRACES, состоящий из проверенных механистических объяснений, полученных из атласа Tahoe-100M. Эмпирически мы демонстрируем, что обучение на этих объяснениях повышает фактическую точность и обеспечивает более эффективный сигнал обучения для последующих задач прогнозирования экспрессии генов. Эти результаты подчеркивают важность надежного механистического моделирования для виртуальных клеток, достигнутого за счет синергии мульти-агентного подхода и строгой верификации.

English

Large language models (LLMs) have recently gained significant attention as a promising approach to accelerate scientific discovery. However, their application in open-ended scientific domains such as biology remains limited, primarily due to the lack of factually grounded and actionable explanations. To address this, we introduce a structured explanation formalism for virtual cells that represents biological reasoning as mechanistic action graphs, enabling systematic verification and falsification. Building upon this, we propose VCR-Agent, a multi-agent framework that integrates biologically grounded knowledge retrieval with a verifier-based filtering approach to generate and validate mechanistic reasoning autonomously. Using this framework, we release VC-TRACES dataset, which consists of verified mechanistic explanations derived from the Tahoe-100M atlas. Empirically, we demonstrate that training with these explanations improves factual precision and provides a more effective supervision signal for downstream gene expression prediction. These results underscore the importance of reliable mechanistic reasoning for virtual cells, achieved through the synergy of multi-agent and rigorous verification.

К автономному механистическому моделированию в виртуальных клетках

Towards Autonomous Mechanistic Reasoning in Virtual Cells

Аннотация

Support