Lingshu-Cell: Un modelo generativo del mundo celular para el modelado del transcriptoma hacia células virtuales
Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells
March 26, 2026
Autores: Han Zhang, Guo-Hua Yuan, Chaohao Yuan, Tingyang Xu, Tian Bian, Hong Cheng, Wenbing Huang, Deli Zhao, Yu Rong
cs.AI
Resumen
La modelización de estados celulares y la predicción de sus respuestas a perturbaciones constituyen desafíos centrales en biología computacional y el desarrollo de células virtuales. Los modelos fundacionales existentes para transcriptómica de células individuales proporcionan representaciones estáticas potentes, pero no modelan explícitamente la distribución de estados celulares para simulación generativa. Aquí presentamos Lingshu-Cell, un modelo de difusión discreta enmascarado que aprende distribuciones de estados transcriptómicos y permite simulación condicional bajo perturbación. Al operar directamente en un espacio discreto de tokens compatible con la naturaleza esparcida y no secuencial de los datos de transcriptómica de células individuales, Lingshu-Cell captura dependencias complejas de expresión a nivel transcriptómico completo en aproximadamente 18.000 genes sin depender de selección génica previa, como filtrado por alta variabilidad o clasificación por nivel de expresión. En diversos tejidos y especies, Lingshu-Cell reproduce con precisión distribuciones transcriptómicas, patrones de expresión de genes marcadores y proporciones de subtipos celulares, demostrando su capacidad para capturar heterogeneidad celular compleja. Además, mediante la incorporación conjunta de identidad de tipo celular o donante con perturbación, Lingshu-Cell puede predecir cambios de expresión en el transcriptoma completo para combinaciones novedosas de identidad y perturbación. Logra un rendimiento líder en el benchmark de perturbación genética H1 del Virtual Cell Challenge y en la predicción de respuestas inducidas por citoquinas en PBMCs humanas. En conjunto, estos resultados establecen a Lingshu-Cell como un modelo mundial celular flexible para la simulación in silico de estados celulares y respuestas a perturbaciones, sentando las bases para un nuevo paradigma en el descubrimiento biológico y el cribado de perturbaciones.
English
Modeling cellular states and predicting their responses to perturbations are central challenges in computational biology and the development of virtual cells. Existing foundation models for single-cell transcriptomics provide powerful static representations, but they do not explicitly model the distribution of cellular states for generative simulation. Here, we introduce Lingshu-Cell, a masked discrete diffusion model that learns transcriptomic state distributions and supports conditional simulation under perturbation. By operating directly in a discrete token space that is compatible with the sparse, non-sequential nature of single-cell transcriptomic data, Lingshu-Cell captures complex transcriptome-wide expression dependencies across approximately 18,000 genes without relying on prior gene selection, such as filtering by high variability or ranking by expression level. Across diverse tissues and species, Lingshu-Cell accurately reproduces transcriptomic distributions, marker-gene expression patterns and cell-subtype proportions, demonstrating its ability to capture complex cellular heterogeneity. Moreover, by jointly embedding cell type or donor identity with perturbation, Lingshu-Cell can predict whole-transcriptome expression changes for novel combinations of identity and perturbation. It achieves leading performance on the Virtual Cell Challenge H1 genetic perturbation benchmark and in predicting cytokine-induced responses in human PBMCs. Together, these results establish Lingshu-Cell as a flexible cellular world model for in silico simulation of cell states and perturbation responses, laying the foundation for a new paradigm in biological discovery and perturbation screening.