ChatPaper.aiChatPaper

高精度単細胞トランスクリプトミクス解析と生成のためのマルチモーダル言語モデリング

Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation

March 12, 2025
著者: Yaorui Shi, Jiaqi Yang, Sihang Li, Junfeng Fang, Xiang Wang, Zhiyuan Liu, Yang Zhang
cs.AI

要旨

事前学習済み言語モデル(PLM)は科学研究に革命をもたらしましたが、単一細胞解析への応用はまだ限られています。テキストPLMは単一細胞RNAシーケンスデータを処理できず、細胞PLMは自由テキストを扱う能力を欠いており、マルチモーダルタスクでの使用が制限されています。これらのモダリティを橋渡しする既存の取り組みは、情報の損失や不十分な単一モーダル事前学習に悩まされ、最適なパフォーマンスが得られていません。これらの課題に対処するため、我々はSingle-Cell MultiModal Generative Pre-trained Transformer(scMMGPT)を提案します。これは細胞とテキストの共同モデリングのための統一されたPLMです。scMMGPTは最先端の細胞PLMとテキストPLMを効果的に統合し、クロスモーダルな知識共有を促進してパフォーマンスを向上させます。テキストと細胞のモダリティギャップを埋めるために、scMMGPTは専用のクロスモーダルプロジェクターを活用し、2,700万細胞というマルチモーダル細胞-テキストPLM向けの最大規模のデータセットで広範な事前学習を行います。この大規模な事前学習により、scMMGPTは細胞-テキスト共同タスクで優れた性能を発揮し、細胞記述生成におけるテキスト不一致の84%の相対的改善、細胞タイプアノテーションの20.5%の精度向上、テキスト条件付き疑似細胞生成におけるk-NN精度の4%の改善を達成し、ベースラインを上回りました。
English
Pre-trained language models (PLMs) have revolutionized scientific research, yet their application to single-cell analysis remains limited. Text PLMs cannot process single-cell RNA sequencing data, while cell PLMs lack the ability to handle free text, restricting their use in multimodal tasks. Existing efforts to bridge these modalities often suffer from information loss or inadequate single-modal pre-training, leading to suboptimal performances. To address these challenges, we propose Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), a unified PLM for joint cell and text modeling. scMMGPT effectively integrates the state-of-the-art cell and text PLMs, facilitating cross-modal knowledge sharing for improved performance. To bridge the text-cell modality gap, scMMGPT leverages dedicated cross-modal projectors, and undergoes extensive pre-training on 27 million cells -- the largest dataset for multimodal cell-text PLMs to date. This large-scale pre-training enables scMMGPT to excel in joint cell-text tasks, achieving an 84\% relative improvement of textual discrepancy for cell description generation, 20.5\% higher accuracy for cell type annotation, and 4\% improvement in k-NN accuracy for text-conditioned pseudo-cell generation, outperforming baselines.

Summary

AI-Generated Summary

PDF42March 13, 2025