Multimodale Taalmodellering voor Nauwkeurige Enkelcel Transcriptomische Analyse en Generatie
Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation
March 12, 2025
Auteurs: Yaorui Shi, Jiaqi Yang, Sihang Li, Junfeng Fang, Xiang Wang, Zhiyuan Liu, Yang Zhang
cs.AI
Samenvatting
Voorgetrainde taalmodellen (PLMs) hebben wetenschappelijk onderzoek revolutionair veranderd, maar hun toepassing op single-cell analyse blijft beperkt. Tekst-PLMs kunnen geen single-cell RNA-sequencinggegevens verwerken, terwijl cel-PLMs niet in staat zijn om vrije tekst te hanteren, wat hun gebruik in multimodale taken beperkt. Bestaande inspanningen om deze modaliteiten te overbruggen, lijden vaak onder informatieverlies of onvoldoende voorafgaande training van één modaliteit, wat leidt tot suboptimale prestaties. Om deze uitdagingen aan te pakken, stellen we het Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT) voor, een geïntegreerd PLM voor gezamenlijke cel- en tekstmodellering. scMMGPT integreert effectief de state-of-the-art cel- en tekst-PLMs, waardoor kruismodale kennisuitwisseling wordt gefaciliteerd voor verbeterde prestaties. Om de kloof tussen tekst- en celmodaliteiten te overbruggen, maakt scMMGPT gebruik van toegewijde kruismodale projectoren en ondergaat het uitgebreide voorafgaande training op 27 miljoen cellen – de grootste dataset voor multimodale cel-tekst-PLMs tot nu toe. Deze grootschalige voorafgaande training stelt scMMGPT in staat om uit te blinken in gezamenlijke cel-teksttaken, met een relatieve verbetering van 84% in tekstuele discrepantie voor celbeschrijvingsgeneratie, 20,5% hogere nauwkeurigheid voor celtypeannotatie en een verbetering van 4% in k-NN-nauwkeurigheid voor tekst-geconditioneerde pseudo-celgeneratie, waarmee het de baseline-methoden overtreft.
English
Pre-trained language models (PLMs) have revolutionized scientific research,
yet their application to single-cell analysis remains limited. Text PLMs cannot
process single-cell RNA sequencing data, while cell PLMs lack the ability to
handle free text, restricting their use in multimodal tasks. Existing efforts
to bridge these modalities often suffer from information loss or inadequate
single-modal pre-training, leading to suboptimal performances. To address these
challenges, we propose Single-Cell MultiModal Generative Pre-trained
Transformer (scMMGPT), a unified PLM for joint cell and text modeling. scMMGPT
effectively integrates the state-of-the-art cell and text PLMs, facilitating
cross-modal knowledge sharing for improved performance. To bridge the text-cell
modality gap, scMMGPT leverages dedicated cross-modal projectors, and undergoes
extensive pre-training on 27 million cells -- the largest dataset for
multimodal cell-text PLMs to date. This large-scale pre-training enables
scMMGPT to excel in joint cell-text tasks, achieving an 84\% relative
improvement of textual discrepancy for cell description generation, 20.5\%
higher accuracy for cell type annotation, and 4\% improvement in k-NN
accuracy for text-conditioned pseudo-cell generation, outperforming baselines.Summary
AI-Generated Summary