CellForge: Projeto Agente de Modelos de Células Virtuais
CellForge: Agentic Design of Virtual Cell Models
August 4, 2025
Autores: Xiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein
cs.AI
Resumo
A modelagem de células virtuais representa uma fronteira emergente na interseção entre inteligência artificial e biologia, visando prever quantidades como respostas a diversas perturbações de forma quantitativa. No entanto, a construção autônoma de modelos computacionais para células virtuais é desafiadora devido à complexidade dos sistemas biológicos, à heterogeneidade das modalidades de dados e à necessidade de expertise específica em múltiplas disciplinas. Aqui, apresentamos o CellForge, um sistema agentivo que utiliza uma estrutura multiagente para transformar diretamente conjuntos de dados biológicos e objetivos de pesquisa em modelos computacionais otimizados para células virtuais. Mais especificamente, dado apenas dados brutos de multi-ômicas de célula única e descrições de tarefas como entrada, o CellForge produz tanto uma arquitetura de modelo otimizada quanto código executável para treinar modelos de células virtuais e realizar inferências. O framework integra três módulos principais: Análise de Tarefas, para caracterização do conjunto de dados apresentado e recuperação de literatura relevante; Design de Métodos, onde agentes especializados colaboram no desenvolvimento de estratégias de modelagem otimizadas; e Execução de Experimentos, para geração automatizada de código. Os agentes no módulo de Design são separados em especialistas com perspectivas diferentes e um moderador central, e devem colaborativamente trocar soluções até alcançarem um consenso razoável. Demonstramos as capacidades do CellForge na previsão de perturbações em células únicas, utilizando seis conjuntos de dados diversos que abrangem knockouts de genes, tratamentos com drogas e estimulações com citocinas em múltiplas modalidades. O CellForge consistentemente supera métodos state-of-the-art específicos para cada tarefa. No geral, o CellForge demonstra como a interação iterativa entre agentes de LLM com perspectivas diferentes fornece soluções melhores do que abordar diretamente um desafio de modelagem. Nosso código está disponível publicamente em https://github.com/gersteinlab/CellForge.
English
Virtual cell modeling represents an emerging frontier at the intersection of
artificial intelligence and biology, aiming to predict quantities such as
responses to diverse perturbations quantitatively. However, autonomously
building computational models for virtual cells is challenging due to the
complexity of biological systems, the heterogeneity of data modalities, and the
need for domain-specific expertise across multiple disciplines. Here, we
introduce CellForge, an agentic system that leverages a multi-agent framework
that transforms presented biological datasets and research objectives directly
into optimized computational models for virtual cells. More specifically, given
only raw single-cell multi-omics data and task descriptions as input, CellForge
outputs both an optimized model architecture and executable code for training
virtual cell models and inference. The framework integrates three core modules:
Task Analysis for presented dataset characterization and relevant literature
retrieval, Method Design, where specialized agents collaboratively develop
optimized modeling strategies, and Experiment Execution for automated
generation of code. The agents in the Design module are separated into experts
with differing perspectives and a central moderator, and have to
collaboratively exchange solutions until they achieve a reasonable consensus.
We demonstrate CellForge's capabilities in single-cell perturbation prediction,
using six diverse datasets that encompass gene knockouts, drug treatments, and
cytokine stimulations across multiple modalities. CellForge consistently
outperforms task-specific state-of-the-art methods. Overall, CellForge
demonstrates how iterative interaction between LLM agents with differing
perspectives provides better solutions than directly addressing a modeling
challenge. Our code is publicly available at
https://github.com/gersteinlab/CellForge.