Lingshu-Cell: Um modelo generativo de mundo celular para modelagem de transcriptoma rumo a células virtuais
Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells
March 26, 2026
Autores: Han Zhang, Guo-Hua Yuan, Chaohao Yuan, Tingyang Xu, Tian Bian, Hong Cheng, Wenbing Huang, Deli Zhao, Yu Rong
cs.AI
Resumo
A modelação de estados celulares e a previsão das suas respostas a perturbações são desafios centrais em biologia computacional e no desenvolvimento de células virtuais. Os modelos de base existentes para transcriptómica de célula única fornecem representações estáticas poderosas, mas não modelam explicitamente a distribuição de estados celulares para simulação generativa. Aqui, introduzimos o Lingshu-Cell, um modelo de difusão discreta mascarada que aprende as distribuições de estados transcriptómicos e suporta simulação condicional sob perturbação. Ao operar diretamente num espaço de *tokens* discretos compatível com a natureza esparsa e não sequencial dos dados de transcriptómica de célula única, o Lingshu-Cell captura dependências complexas de expressão a nível do transcriptoma completo em aproximadamente 18.000 genes, sem depender de seleção génica prévia, como a filtragem por alta variabilidade ou ordenação por nível de expressão. Em diversos tecidos e espécies, o Lingshu-Cell reproduz com precisão distribuições transcriptómicas, padrões de expressão de genes marcadores e proporções de subtipos celulares, demonstrando a sua capacidade de capturar heterogeneidade celular complexa. Além disso, ao incorporar conjuntamente a identidade do tipo celular ou do dador com a perturbação, o Lingshu-Cell pode prever alterações de expressão do transcriptoma completo para novas combinações de identidade e perturbação. O modelo atinge um desempenho líder no benchmark de perturbação genética H1 do Virtual Cell Challenge e na previsão de respostas induzidas por citocinas em PBMCs humanas. Em conjunto, estes resultados estabelecem o Lingshu-Cell como um modelo de mundo celular flexível para simulação *in silico* de estados celulares e respostas a perturbações, lançando as bases para um novo paradigma na descoberta biológica e no rastreio de perturbações.
English
Modeling cellular states and predicting their responses to perturbations are central challenges in computational biology and the development of virtual cells. Existing foundation models for single-cell transcriptomics provide powerful static representations, but they do not explicitly model the distribution of cellular states for generative simulation. Here, we introduce Lingshu-Cell, a masked discrete diffusion model that learns transcriptomic state distributions and supports conditional simulation under perturbation. By operating directly in a discrete token space that is compatible with the sparse, non-sequential nature of single-cell transcriptomic data, Lingshu-Cell captures complex transcriptome-wide expression dependencies across approximately 18,000 genes without relying on prior gene selection, such as filtering by high variability or ranking by expression level. Across diverse tissues and species, Lingshu-Cell accurately reproduces transcriptomic distributions, marker-gene expression patterns and cell-subtype proportions, demonstrating its ability to capture complex cellular heterogeneity. Moreover, by jointly embedding cell type or donor identity with perturbation, Lingshu-Cell can predict whole-transcriptome expression changes for novel combinations of identity and perturbation. It achieves leading performance on the Virtual Cell Challenge H1 genetic perturbation benchmark and in predicting cytokine-induced responses in human PBMCs. Together, these results establish Lingshu-Cell as a flexible cellular world model for in silico simulation of cell states and perturbation responses, laying the foundation for a new paradigm in biological discovery and perturbation screening.