CellForge: Progettazione Agente di Modelli di Cellule Virtuali
CellForge: Agentic Design of Virtual Cell Models
August 4, 2025
Autori: Xiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein
cs.AI
Abstract
La modellazione di cellule virtuali rappresenta una frontiera emergente all'intersezione tra intelligenza artificiale e biologia, con l'obiettivo di prevedere quantità come le risposte a diverse perturbazioni in modo quantitativo. Tuttavia, costruire autonomamente modelli computazionali per cellule virtuali è impegnativo a causa della complessità dei sistemi biologici, dell'eterogeneità delle modalità di dati e della necessità di competenze specifiche del dominio in più discipline. Qui presentiamo CellForge, un sistema agentico che sfrutta un framework multi-agente per trasformare direttamente i dataset biologici e gli obiettivi di ricerca presentati in modelli computazionali ottimizzati per cellule virtuali. Più specificamente, dati solo dati grezzi multi-omici a singola cellula e descrizioni del compito come input, CellForge produce sia un'architettura di modello ottimizzata che codice eseguibile per l'addestramento di modelli di cellule virtuali e l'inferenza. Il framework integra tre moduli principali: Analisi del Compito per la caratterizzazione del dataset presentato e il recupero della letteratura pertinente, Progettazione del Metodo, dove agenti specializzati sviluppano collaborativamente strategie di modellazione ottimizzate, ed Esecuzione dell'Esperimento per la generazione automatizzata del codice. Gli agenti nel modulo di Progettazione sono separati in esperti con prospettive diverse e un moderatore centrale, e devono scambiare collaborativamente soluzioni fino a raggiungere un consenso ragionevole. Dimostriamo le capacità di CellForge nella previsione di perturbazioni a singola cellula, utilizzando sei dataset diversi che includono knockout genici, trattamenti farmacologici e stimolazioni citochiniche attraverso più modalità. CellForge supera costantemente i metodi all'avanguardia specifici per il compito. Nel complesso, CellForge dimostra come l'interazione iterativa tra agenti LLM con prospettive diverse fornisca soluzioni migliori rispetto all'affrontare direttamente una sfida di modellazione. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/gersteinlab/CellForge.
English
Virtual cell modeling represents an emerging frontier at the intersection of
artificial intelligence and biology, aiming to predict quantities such as
responses to diverse perturbations quantitatively. However, autonomously
building computational models for virtual cells is challenging due to the
complexity of biological systems, the heterogeneity of data modalities, and the
need for domain-specific expertise across multiple disciplines. Here, we
introduce CellForge, an agentic system that leverages a multi-agent framework
that transforms presented biological datasets and research objectives directly
into optimized computational models for virtual cells. More specifically, given
only raw single-cell multi-omics data and task descriptions as input, CellForge
outputs both an optimized model architecture and executable code for training
virtual cell models and inference. The framework integrates three core modules:
Task Analysis for presented dataset characterization and relevant literature
retrieval, Method Design, where specialized agents collaboratively develop
optimized modeling strategies, and Experiment Execution for automated
generation of code. The agents in the Design module are separated into experts
with differing perspectives and a central moderator, and have to
collaboratively exchange solutions until they achieve a reasonable consensus.
We demonstrate CellForge's capabilities in single-cell perturbation prediction,
using six diverse datasets that encompass gene knockouts, drug treatments, and
cytokine stimulations across multiple modalities. CellForge consistently
outperforms task-specific state-of-the-art methods. Overall, CellForge
demonstrates how iterative interaction between LLM agents with differing
perspectives provides better solutions than directly addressing a modeling
challenge. Our code is publicly available at
https://github.com/gersteinlab/CellForge.