Modelagem de Linguagem Multimodal para Análise e Geração de Transcriptômica de Célula Única de Alta Precisão
Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation
March 12, 2025
Autores: Yaorui Shi, Jiaqi Yang, Sihang Li, Junfeng Fang, Xiang Wang, Zhiyuan Liu, Yang Zhang
cs.AI
Resumo
Modelos de linguagem pré-treinados (PLMs) revolucionaram a pesquisa científica, mas sua aplicação na análise de células únicas ainda é limitada. Os PLMs de texto não conseguem processar dados de sequenciamento de RNA de célula única, enquanto os PLMs de células não têm a capacidade de lidar com texto livre, restringindo seu uso em tarefas multimodais. As tentativas existentes de unir essas modalidades frequentemente sofrem com perda de informação ou pré-treinamento inadequado em modalidades únicas, resultando em desempenho subótimo. Para enfrentar esses desafios, propomos o Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), um PLM unificado para modelagem conjunta de células e texto. O scMMGPT integra de forma eficaz os PLMs de células e texto mais avançados, facilitando o compartilhamento de conhecimento entre modalidades para melhorar o desempenho. Para preencher a lacuna entre as modalidades de texto e célula, o scMMGPT utiliza projetores cruzados dedicados e passa por um extenso pré-treinamento em 27 milhões de células — o maior conjunto de dados para PLMs multimodais de célula-texto até o momento. Esse pré-treinamento em larga escala permite que o scMMGPT se destaque em tarefas conjuntas de célula-texto, alcançando uma melhoria relativa de 84% na discrepância textual para geração de descrição de células, 20,5% maior precisão na anotação de tipos celulares e 4% de melhoria na precisão k-NN para geração de pseudo-células condicionadas por texto, superando as abordagens basais.
English
Pre-trained language models (PLMs) have revolutionized scientific research,
yet their application to single-cell analysis remains limited. Text PLMs cannot
process single-cell RNA sequencing data, while cell PLMs lack the ability to
handle free text, restricting their use in multimodal tasks. Existing efforts
to bridge these modalities often suffer from information loss or inadequate
single-modal pre-training, leading to suboptimal performances. To address these
challenges, we propose Single-Cell MultiModal Generative Pre-trained
Transformer (scMMGPT), a unified PLM for joint cell and text modeling. scMMGPT
effectively integrates the state-of-the-art cell and text PLMs, facilitating
cross-modal knowledge sharing for improved performance. To bridge the text-cell
modality gap, scMMGPT leverages dedicated cross-modal projectors, and undergoes
extensive pre-training on 27 million cells -- the largest dataset for
multimodal cell-text PLMs to date. This large-scale pre-training enables
scMMGPT to excel in joint cell-text tasks, achieving an 84\% relative
improvement of textual discrepancy for cell description generation, 20.5\%
higher accuracy for cell type annotation, and 4\% improvement in k-NN
accuracy for text-conditioned pseudo-cell generation, outperforming baselines.Summary
AI-Generated Summary