ChatPaper.aiChatPaper

CellForge: Diseño Agéntico de Modelos de Células Virtuales

CellForge: Agentic Design of Virtual Cell Models

August 4, 2025
Autores: Xiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein
cs.AI

Resumen

La modelización de células virtuales representa una frontera emergente en la intersección de la inteligencia artificial y la biología, con el objetivo de predecir cantidades como respuestas a diversas perturbaciones de manera cuantitativa. Sin embargo, construir modelos computacionales para células virtuales de forma autónoma es un desafío debido a la complejidad de los sistemas biológicos, la heterogeneidad de las modalidades de datos y la necesidad de experiencia específica en múltiples disciplinas. Aquí presentamos CellForge, un sistema agéntico que aprovecha un marco de trabajo multiagente para transformar directamente conjuntos de datos biológicos y objetivos de investigación en modelos computacionales optimizados para células virtuales. Más específicamente, dado únicamente datos crudos de multiómica de células individuales y descripciones de tareas como entrada, CellForge genera tanto una arquitectura de modelo optimizada como código ejecutable para entrenar modelos de células virtuales e inferencia. El marco integra tres módulos principales: Análisis de Tareas para la caracterización del conjunto de datos presentado y la recuperación de literatura relevante, Diseño de Métodos, donde agentes especializados colaboran en el desarrollo de estrategias de modelización optimizadas, y Ejecución de Experimentos para la generación automatizada de código. Los agentes en el módulo de Diseño se dividen en expertos con perspectivas diferentes y un moderador central, y deben intercambiar soluciones de manera colaborativa hasta alcanzar un consenso razonable. Demostramos las capacidades de CellForge en la predicción de perturbaciones en células individuales, utilizando seis conjuntos de datos diversos que abarcan eliminaciones génicas, tratamientos con fármacos y estimulaciones con citoquinas en múltiples modalidades. CellForge supera consistentemente a los métodos más avanzados específicos para cada tarea. En general, CellForge demuestra cómo la interacción iterativa entre agentes de LLM con perspectivas diferentes proporciona soluciones mejores que abordar directamente un desafío de modelización. Nuestro código está disponible públicamente en https://github.com/gersteinlab/CellForge.
English
Virtual cell modeling represents an emerging frontier at the intersection of artificial intelligence and biology, aiming to predict quantities such as responses to diverse perturbations quantitatively. However, autonomously building computational models for virtual cells is challenging due to the complexity of biological systems, the heterogeneity of data modalities, and the need for domain-specific expertise across multiple disciplines. Here, we introduce CellForge, an agentic system that leverages a multi-agent framework that transforms presented biological datasets and research objectives directly into optimized computational models for virtual cells. More specifically, given only raw single-cell multi-omics data and task descriptions as input, CellForge outputs both an optimized model architecture and executable code for training virtual cell models and inference. The framework integrates three core modules: Task Analysis for presented dataset characterization and relevant literature retrieval, Method Design, where specialized agents collaboratively develop optimized modeling strategies, and Experiment Execution for automated generation of code. The agents in the Design module are separated into experts with differing perspectives and a central moderator, and have to collaboratively exchange solutions until they achieve a reasonable consensus. We demonstrate CellForge's capabilities in single-cell perturbation prediction, using six diverse datasets that encompass gene knockouts, drug treatments, and cytokine stimulations across multiple modalities. CellForge consistently outperforms task-specific state-of-the-art methods. Overall, CellForge demonstrates how iterative interaction between LLM agents with differing perspectives provides better solutions than directly addressing a modeling challenge. Our code is publicly available at https://github.com/gersteinlab/CellForge.
PDF361August 5, 2025