ChatPaper.aiChatPaper

Lingshu-Cell: Un modello generativo cellulare mondiale per la modellazione del trascrittoma verso cellule virtuali

Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

March 26, 2026
Autori: Han Zhang, Guo-Hua Yuan, Chaohao Yuan, Tingyang Xu, Tian Bian, Hong Cheng, Wenbing Huang, Deli Zhao, Yu Rong
cs.AI

Abstract

La modellizzazione degli stati cellulari e la previsione delle loro risposte alle perturbazioni rappresentano sfide centrali in biologia computazionale e nello sviluppo di cellule virtuali. I modelli foundation esistenti per la trascrittomica a cellula singola forniscono rappresentazioni statiche potenti, ma non modellano esplicitamente la distribuzione degli stati cellulari per la simulazione generativa. Qui introduciamo Lingshu-Cell, un modello di diffusione discreta mascherato che apprende le distribuzioni degli stati trascrittomici e supporta la simulazione condizionale sotto perturbazione. Operando direttamente in uno spazio di token discreti compatibile con la natura sparsa e non sequenziale dei dati trascrittomici a cellula singola, Lingshu-Cell cattura complesse dipendenze espressive a livello di trascrittoma attraverso circa 18.000 geni senza fare affidamento su una selezione genica preliminare, come il filtraggio per alta variabilità o la classificazione per livello di espressione. In diversi tessuti e specie, Lingshu-Cell riproduce accuratamente le distribuzioni trascrittomiche, i modelli di espressione dei geni marker e le proporzioni dei sottotipi cellulari, dimostrando la sua capacità di catturare una complessa eterogeneità cellulare. Inoltre, incorporando congiuntamente l'identità del tipo cellulare o del donatore con la perturbazione, Lingshu-Cell può prevedere i cambiamenti dell'espressione dell'intero trascrittoma per nuove combinazioni di identità e perturbazione. Raggiunge prestazioni leader nel benchmark di perturbazione genetica H1 della Virtual Cell Challenge e nella previsione delle risposte indotte da citochine nelle PBMC umane. Nel complesso, questi risultati stabiliscono Lingshu-Cell come un modello mondiale cellulare flessibile per la simulazione in silico degli stati cellulari e delle risposte alle perturbazioni, gettando le basi per un nuovo paradigma nella scoperta biologica e nello screening delle perturbazioni.
English
Modeling cellular states and predicting their responses to perturbations are central challenges in computational biology and the development of virtual cells. Existing foundation models for single-cell transcriptomics provide powerful static representations, but they do not explicitly model the distribution of cellular states for generative simulation. Here, we introduce Lingshu-Cell, a masked discrete diffusion model that learns transcriptomic state distributions and supports conditional simulation under perturbation. By operating directly in a discrete token space that is compatible with the sparse, non-sequential nature of single-cell transcriptomic data, Lingshu-Cell captures complex transcriptome-wide expression dependencies across approximately 18,000 genes without relying on prior gene selection, such as filtering by high variability or ranking by expression level. Across diverse tissues and species, Lingshu-Cell accurately reproduces transcriptomic distributions, marker-gene expression patterns and cell-subtype proportions, demonstrating its ability to capture complex cellular heterogeneity. Moreover, by jointly embedding cell type or donor identity with perturbation, Lingshu-Cell can predict whole-transcriptome expression changes for novel combinations of identity and perturbation. It achieves leading performance on the Virtual Cell Challenge H1 genetic perturbation benchmark and in predicting cytokine-induced responses in human PBMCs. Together, these results establish Lingshu-Cell as a flexible cellular world model for in silico simulation of cell states and perturbation responses, laying the foundation for a new paradigm in biological discovery and perturbation screening.
PDF713April 2, 2026