Lingshu-Cell: トランスクリプトームモデリングのための生成的細胞世界モデルによる仮想細胞の実現
Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells
March 26, 2026
著者: Han Zhang, Guo-Hua Yuan, Chaohao Yuan, Tingyang Xu, Tian Bian, Hong Cheng, Wenbing Huang, Deli Zhao, Yu Rong
cs.AI
要旨
細胞状態のモデリングとその摂動応答の予測は、計算生物学および仮想細胞開発における中心的な課題である。既存の単一細胞トランスクリプトミクスの基盤モデルは強力な静的表現を提供するが、生成的シミュレーションのための細胞状態分布を明示的にモデル化していない。本論文では、トランスクリプトーム状態分布を学習し、摂動下での条件付きシミュレーションを可能とするマスク型離散拡散モデル「Lingshu-Cell」を提案する。単一細胞トランスクリプトミクスデータの疎性・非連続性に適合した離散トークン空間で直接動作することにより、Lingshu-Cellは高変動性フィルタリングや発現量順位付けなどの事前遺伝子選択に依存せず、約18,000遺伝子にわたる複雑なトランスクリプトーム規模の発現依存性を捕捉する。多様な組織と種にわたって、Lingshu-Cellはトランスクリプトーム分布、マーカー遺伝子発現パターン、細胞サブタイプ比率を正確に再現し、複雑な細胞不均一性の捕捉能力を実証する。さらに、細胞タイプまたはドナー情報と摂動を共同で埋め込むことで、新規の識別子と摂動の組み合わせに対する全トランスクリプトーム発現変化を予測可能である。本モデルはVirtual Cell Challenge H1遺伝子摂動ベンチマークおよびヒトPBMCにおけるサイトカイン誘導応答の予測において最先端の性能を達成する。これらの結果は、Lingshu-Cellが細胞状態と摂動応答のin silicoシミュレーションのための柔軟な細胞世界モデルであることを示し、生物学的発見と摂動スクリーニングにおける新たなパラダイムの基盤を築くものである。
English
Modeling cellular states and predicting their responses to perturbations are central challenges in computational biology and the development of virtual cells. Existing foundation models for single-cell transcriptomics provide powerful static representations, but they do not explicitly model the distribution of cellular states for generative simulation. Here, we introduce Lingshu-Cell, a masked discrete diffusion model that learns transcriptomic state distributions and supports conditional simulation under perturbation. By operating directly in a discrete token space that is compatible with the sparse, non-sequential nature of single-cell transcriptomic data, Lingshu-Cell captures complex transcriptome-wide expression dependencies across approximately 18,000 genes without relying on prior gene selection, such as filtering by high variability or ranking by expression level. Across diverse tissues and species, Lingshu-Cell accurately reproduces transcriptomic distributions, marker-gene expression patterns and cell-subtype proportions, demonstrating its ability to capture complex cellular heterogeneity. Moreover, by jointly embedding cell type or donor identity with perturbation, Lingshu-Cell can predict whole-transcriptome expression changes for novel combinations of identity and perturbation. It achieves leading performance on the Virtual Cell Challenge H1 genetic perturbation benchmark and in predicting cytokine-induced responses in human PBMCs. Together, these results establish Lingshu-Cell as a flexible cellular world model for in silico simulation of cell states and perturbation responses, laying the foundation for a new paradigm in biological discovery and perturbation screening.