ChatPaper.aiChatPaper

Lingshu-Cell : Un modèle génératif du monde cellulaire pour la modélisation du transcriptome vers des cellules virtuelles

Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

March 26, 2026
Auteurs: Han Zhang, Guo-Hua Yuan, Chaohao Yuan, Tingyang Xu, Tian Bian, Hong Cheng, Wenbing Huang, Deli Zhao, Yu Rong
cs.AI

Résumé

La modélisation des états cellulaires et la prédiction de leurs réponses aux perturbations constituent des défis majeurs en biologie computationnelle et dans le développement de cellules virtuelles. Les modèles de fond existants pour la transcriptomique unicellulaire fournissent des représentations statiques puissantes, mais ils ne modélisent pas explicitement la distribution des états cellulaires pour une simulation générative. Nous présentons ici Lingshu-Cell, un modèle de diffusion discrète masquée qui apprend les distributions d'états transcriptomiques et permet une simulation conditionnelle sous perturbation. En opérant directement dans un espace de tokens discret compatible avec la nature éparse et non séquentielle des données transcriptomiques unicellulaires, Lingshu-Cell capture les dépendances d'expression complexes à l'échelle du transcriptome sur environ 18 000 gènes sans recourir à une sélection préalable de gènes, telle que le filtrage par variabilité élevée ou le classement par niveau d'expression. Sur divers tissus et espèces, Lingshu-Cell reproduit fidèlement les distributions transcriptomiques, les profils d'expression des gènes marqueurs et les proportions de sous-types cellulaires, démontrant sa capacité à saisir une hétérogénéité cellulaire complexe. De plus, en intégrant conjointement l'identité du type cellulaire ou du donneur avec la perturbation, Lingshu-Cell peut prédire les changements d'expression pan-transcriptomiques pour de nouvelles combinaisons d'identité et de perturbation. Il obtient des performances leaders sur le benchmark de perturbations génétiques H1 du Virtual Cell Challenge et dans la prédiction des réponses induites par les cytokines dans les PBMC humaines. Ensemble, ces résultats établissent Lingshu-Cell comme un modèle mondial cellulaire flexible pour la simulation in silico des états cellulaires et des réponses aux perturbations, jetant les bases d'un nouveau paradigme pour la découverte biologique et le criblage de perturbations.
English
Modeling cellular states and predicting their responses to perturbations are central challenges in computational biology and the development of virtual cells. Existing foundation models for single-cell transcriptomics provide powerful static representations, but they do not explicitly model the distribution of cellular states for generative simulation. Here, we introduce Lingshu-Cell, a masked discrete diffusion model that learns transcriptomic state distributions and supports conditional simulation under perturbation. By operating directly in a discrete token space that is compatible with the sparse, non-sequential nature of single-cell transcriptomic data, Lingshu-Cell captures complex transcriptome-wide expression dependencies across approximately 18,000 genes without relying on prior gene selection, such as filtering by high variability or ranking by expression level. Across diverse tissues and species, Lingshu-Cell accurately reproduces transcriptomic distributions, marker-gene expression patterns and cell-subtype proportions, demonstrating its ability to capture complex cellular heterogeneity. Moreover, by jointly embedding cell type or donor identity with perturbation, Lingshu-Cell can predict whole-transcriptome expression changes for novel combinations of identity and perturbation. It achieves leading performance on the Virtual Cell Challenge H1 genetic perturbation benchmark and in predicting cytokine-induced responses in human PBMCs. Together, these results establish Lingshu-Cell as a flexible cellular world model for in silico simulation of cell states and perturbation responses, laying the foundation for a new paradigm in biological discovery and perturbation screening.
PDF713April 2, 2026