Lingshu-Cell: Een generatief cellulair wereldmodel voor transcriptoommodellering richting virtuele cellen
Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells
March 26, 2026
Auteurs: Han Zhang, Guo-Hua Yuan, Chaohao Yuan, Tingyang Xu, Tian Bian, Hong Cheng, Wenbing Huang, Deli Zhao, Yu Rong
cs.AI
Samenvatting
Het modelleren van cellulaire toestanden en het voorspellen van hun reacties op verstoringen zijn centrale uitdagingen in de computationele biologie en de ontwikkeling van virtuele cellen. Bestaande foundation-modellen voor single-cell transcriptomica bieden krachtige statische representaties, maar modelleren niet expliciet de verdeling van cellulaire toestanden voor generatieve simulatie. Hier introduceren we Lingshu-Cell, een gemaskeerd discreet diffusiemodel dat transcriptomische toestandsverdelingen leert en conditionele simulatie onder verstoring ondersteunt. Door direct te opereren in een discrete tokenruimte die compatibel is met het sparse, niet-sequentiële karakter van single-cell transcriptomische data, vangt Lingshu-Cell complexe expressie-afhankelijkheden over het gehele transcriptoom van ongeveer 18.000 genen zonder te leunen op voorafgaande genselectie, zoals filteren op hoge variabiliteit of rangschikking op expressieniveau. In diverse weefsels en soorten reproduceert Lingshu-Cell nauwkeurig transcriptomische verdelingen, marker-genexpressiepatronen en cel-subtypeverhoudingen, wat zijn vermogen aantoont om complexe cellulaire heterogeniteit te vatten. Bovendien kan Lingshu-Cell, door celtype- of donoridentiteit gezamenlijk in te bedden met verstoring, expressieveranderingen over het gehele transcriptoom voorspellen voor nieuwe combinaties van identiteit en verstoring. Het behaalt toonaangevende prestaties op de Virtual Cell Challenge H1 benchmark voor genetische verstoringen en bij het voorspellen van cytokine-geïnduceerde reacties in humane PBMC's. Gezamenlijk vestigen deze resultaten Lingshu-Cell als een flexibel cellulair wereldmodel voor in silico-simulatie van celtoestanden en verstoringsreacties, en leggen ze de basis voor een nieuw paradigma in biologische ontdekking en verstoringsscreening.
English
Modeling cellular states and predicting their responses to perturbations are central challenges in computational biology and the development of virtual cells. Existing foundation models for single-cell transcriptomics provide powerful static representations, but they do not explicitly model the distribution of cellular states for generative simulation. Here, we introduce Lingshu-Cell, a masked discrete diffusion model that learns transcriptomic state distributions and supports conditional simulation under perturbation. By operating directly in a discrete token space that is compatible with the sparse, non-sequential nature of single-cell transcriptomic data, Lingshu-Cell captures complex transcriptome-wide expression dependencies across approximately 18,000 genes without relying on prior gene selection, such as filtering by high variability or ranking by expression level. Across diverse tissues and species, Lingshu-Cell accurately reproduces transcriptomic distributions, marker-gene expression patterns and cell-subtype proportions, demonstrating its ability to capture complex cellular heterogeneity. Moreover, by jointly embedding cell type or donor identity with perturbation, Lingshu-Cell can predict whole-transcriptome expression changes for novel combinations of identity and perturbation. It achieves leading performance on the Virtual Cell Challenge H1 genetic perturbation benchmark and in predicting cytokine-induced responses in human PBMCs. Together, these results establish Lingshu-Cell as a flexible cellular world model for in silico simulation of cell states and perturbation responses, laying the foundation for a new paradigm in biological discovery and perturbation screening.