CellForge: Agentisch Ontwerp van Virtuele Celmodellen
CellForge: Agentic Design of Virtual Cell Models
August 4, 2025
Auteurs: Xiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein
cs.AI
Samenvatting
Het modelleren van virtuele cellen vertegenwoordigt een opkomend onderzoeksgebied op het snijvlak van kunstmatige intelligentie en biologie, met als doel om grootheden zoals reacties op diverse verstoringen kwantitatief te voorspellen. Het autonoom bouwen van computationele modellen voor virtuele cellen is echter uitdagend vanwege de complexiteit van biologische systemen, de heterogeniteit van datamodaliteiten en de behoefte aan domeinspecifieke expertise over meerdere disciplines. Hier introduceren we CellForge, een agent-gebaseerd systeem dat gebruikmaakt van een multi-agent framework om gepresenteerde biologische datasets en onderzoeksdoelstellingen direct om te zetten in geoptimaliseerde computationele modellen voor virtuele cellen. Meer specifiek produceert CellForge, met alleen ruwe single-cell multi-omics data en taakbeschrijvingen als input, zowel een geoptimaliseerde modelarchitectuur als uitvoerbare code voor het trainen van virtuele celmodellen en inferentie. Het framework integreert drie kernmodules: Taakanalyse voor de karakterisering van gepresenteerde datasets en het ophalen van relevante literatuur, Methodeontwerp, waar gespecialiseerde agents gezamenlijk geoptimaliseerde modelleringsstrategieën ontwikkelen, en Experimentuitvoering voor de geautomatiseerde generatie van code. De agents in de Ontwerpmodule zijn gescheiden in experts met verschillende perspectieven en een centrale moderator, en moeten gezamenlijk oplossingen uitwisselen totdat ze een redelijke consensus bereiken. We demonstreren de mogelijkheden van CellForge in single-cell verstoringsvoorspelling, met behulp van zes diverse datasets die genknockouts, medicijnbehandelingen en cytokine-stimulaties over meerdere modaliteiten omvatten. CellForge presteert consistent beter dan taakspecifieke state-of-the-art methoden. Over het algemeen toont CellForge aan hoe iteratieve interactie tussen LLM-agents met verschillende perspectieven betere oplossingen biedt dan het direct aanpakken van een modelleringsuitdaging. Onze code is publiekelijk beschikbaar op https://github.com/gersteinlab/CellForge.
English
Virtual cell modeling represents an emerging frontier at the intersection of
artificial intelligence and biology, aiming to predict quantities such as
responses to diverse perturbations quantitatively. However, autonomously
building computational models for virtual cells is challenging due to the
complexity of biological systems, the heterogeneity of data modalities, and the
need for domain-specific expertise across multiple disciplines. Here, we
introduce CellForge, an agentic system that leverages a multi-agent framework
that transforms presented biological datasets and research objectives directly
into optimized computational models for virtual cells. More specifically, given
only raw single-cell multi-omics data and task descriptions as input, CellForge
outputs both an optimized model architecture and executable code for training
virtual cell models and inference. The framework integrates three core modules:
Task Analysis for presented dataset characterization and relevant literature
retrieval, Method Design, where specialized agents collaboratively develop
optimized modeling strategies, and Experiment Execution for automated
generation of code. The agents in the Design module are separated into experts
with differing perspectives and a central moderator, and have to
collaboratively exchange solutions until they achieve a reasonable consensus.
We demonstrate CellForge's capabilities in single-cell perturbation prediction,
using six diverse datasets that encompass gene knockouts, drug treatments, and
cytokine stimulations across multiple modalities. CellForge consistently
outperforms task-specific state-of-the-art methods. Overall, CellForge
demonstrates how iterative interaction between LLM agents with differing
perspectives provides better solutions than directly addressing a modeling
challenge. Our code is publicly available at
https://github.com/gersteinlab/CellForge.