CellForge : Conception agentive de modèles cellulaires virtuels
CellForge: Agentic Design of Virtual Cell Models
August 4, 2025
papers.authors: Xiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein
cs.AI
papers.abstract
La modélisation de cellules virtuelles représente une frontière émergente à l'intersection de l'intelligence artificielle et de la biologie, visant à prédire quantitativement des grandeurs telles que les réponses à diverses perturbations. Cependant, la construction autonome de modèles computationnels pour des cellules virtuelles est un défi en raison de la complexité des systèmes biologiques, de l'hétérogénéité des modalités de données et du besoin d'expertise spécifique à plusieurs domaines. Nous présentons ici CellForge, un système agentique qui exploite un cadre multi-agents pour transformer directement les ensembles de données biologiques et les objectifs de recherche en modèles computationnels optimisés pour les cellules virtuelles. Plus précisément, avec comme seules entrées des données multi-omiques brutes de cellules uniques et des descriptions de tâches, CellForge produit à la fois une architecture de modèle optimisée et un code exécutable pour l'entraînement des modèles de cellules virtuelles et l'inférence. Le framework intègre trois modules principaux : l'Analyse de Tâches pour la caractérisation des ensembles de données présentés et la récupération de la littérature pertinente, la Conception de Méthodes, où des agents spécialisés développent de manière collaborative des stratégies de modélisation optimisées, et l'Exécution d'Expériences pour la génération automatisée de code. Les agents du module de Conception sont séparés en experts avec des perspectives différentes et un modérateur central, et doivent échanger de manière collaborative des solutions jusqu'à atteindre un consensus raisonnable. Nous démontrons les capacités de CellForge dans la prédiction de perturbations à l'échelle de cellules uniques, en utilisant six ensembles de données divers qui incluent des knockouts géniques, des traitements médicamenteux et des stimulations de cytokines à travers plusieurs modalités. CellForge surpasse systématiquement les méthodes état-de-l'art spécifiques à chaque tâche. Globalement, CellForge montre comment l'interaction itérative entre des agents LLM avec des perspectives différentes fournit de meilleures solutions que l'approche directe d'un défi de modélisation. Notre code est disponible publiquement à l'adresse https://github.com/gersteinlab/CellForge.
English
Virtual cell modeling represents an emerging frontier at the intersection of
artificial intelligence and biology, aiming to predict quantities such as
responses to diverse perturbations quantitatively. However, autonomously
building computational models for virtual cells is challenging due to the
complexity of biological systems, the heterogeneity of data modalities, and the
need for domain-specific expertise across multiple disciplines. Here, we
introduce CellForge, an agentic system that leverages a multi-agent framework
that transforms presented biological datasets and research objectives directly
into optimized computational models for virtual cells. More specifically, given
only raw single-cell multi-omics data and task descriptions as input, CellForge
outputs both an optimized model architecture and executable code for training
virtual cell models and inference. The framework integrates three core modules:
Task Analysis for presented dataset characterization and relevant literature
retrieval, Method Design, where specialized agents collaboratively develop
optimized modeling strategies, and Experiment Execution for automated
generation of code. The agents in the Design module are separated into experts
with differing perspectives and a central moderator, and have to
collaboratively exchange solutions until they achieve a reasonable consensus.
We demonstrate CellForge's capabilities in single-cell perturbation prediction,
using six diverse datasets that encompass gene knockouts, drug treatments, and
cytokine stimulations across multiple modalities. CellForge consistently
outperforms task-specific state-of-the-art methods. Overall, CellForge
demonstrates how iterative interaction between LLM agents with differing
perspectives provides better solutions than directly addressing a modeling
challenge. Our code is publicly available at
https://github.com/gersteinlab/CellForge.