ChatPaper.aiChatPaper

고정확도 단일 세포 전사체 분석 및 생성을 위한 다중모달 언어 모델링

Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation

March 12, 2025
저자: Yaorui Shi, Jiaqi Yang, Sihang Li, Junfeng Fang, Xiang Wang, Zhiyuan Liu, Yang Zhang
cs.AI

초록

사전 학습된 언어 모델(PLM)은 과학 연구에 혁신을 가져왔지만, 단일 세포 분석에의 적용은 여전히 제한적입니다. 텍스트 PLM은 단일 세포 RNA 시퀀싱 데이터를 처리할 수 없으며, 세포 PLM은 자유 텍스트를 다루는 능력이 부족하여 다중 모달 작업에서의 활용이 제한됩니다. 이러한 모달리티를 연결하려는 기존의 노력들은 정보 손실이나 불충분한 단일 모달 사전 학습으로 인해 최적의 성능을 달성하지 못하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 단일 세포와 텍스트 모델링을 통합한 통합 PLM인 Single-Cell MultiModal Generative Pre-trained Transformer(scMMGPT)를 제안합니다. scMMGPT는 최신의 세포 및 텍스트 PLM을 효과적으로 통합하여 교차 모달 지식 공유를 촉진하고 성능을 개선합니다. 텍스트-세포 모달리티 간의 격차를 해소하기 위해 scMMGPT는 전용 교차 모달 프로젝터를 활용하고, 2,700만 개의 세포 데이터셋에 대해 광범위한 사전 학습을 진행합니다. 이는 현재까지 다중 모달 세포-텍스트 PLM을 위한 가장 큰 데이터셋입니다. 이 대규모 사전 학습은 scMMGPT가 공동 세포-텍스트 작업에서 탁월한 성능을 발휘하도록 하며, 세포 설명 생성에서 텍스트 불일치를 84% 상대적으로 개선하고, 세포 유형 주석에서 20.5% 더 높은 정확도를 달성하며, 텍스트 조건부 가상 세포 생성에서 k-NN 정확도를 4% 향상시켜 기준선을 능가합니다.
English
Pre-trained language models (PLMs) have revolutionized scientific research, yet their application to single-cell analysis remains limited. Text PLMs cannot process single-cell RNA sequencing data, while cell PLMs lack the ability to handle free text, restricting their use in multimodal tasks. Existing efforts to bridge these modalities often suffer from information loss or inadequate single-modal pre-training, leading to suboptimal performances. To address these challenges, we propose Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), a unified PLM for joint cell and text modeling. scMMGPT effectively integrates the state-of-the-art cell and text PLMs, facilitating cross-modal knowledge sharing for improved performance. To bridge the text-cell modality gap, scMMGPT leverages dedicated cross-modal projectors, and undergoes extensive pre-training on 27 million cells -- the largest dataset for multimodal cell-text PLMs to date. This large-scale pre-training enables scMMGPT to excel in joint cell-text tasks, achieving an 84\% relative improvement of textual discrepancy for cell description generation, 20.5\% higher accuracy for cell type annotation, and 4\% improvement in k-NN accuracy for text-conditioned pseudo-cell generation, outperforming baselines.

Summary

AI-Generated Summary

PDF42March 13, 2025