Multimodale Taalmodellering voor Nauwkeurige Enkelcel Transcriptomische Analyse en Generatie

Samenvatting

Voorgetrainde taalmodellen (PLMs) hebben wetenschappelijk onderzoek revolutionair veranderd, maar hun toepassing op single-cell analyse blijft beperkt. Tekst-PLMs kunnen geen single-cell RNA-sequencinggegevens verwerken, terwijl cel-PLMs niet in staat zijn om vrije tekst te hanteren, wat hun gebruik in multimodale taken beperkt. Bestaande inspanningen om deze modaliteiten te overbruggen, lijden vaak onder informatieverlies of onvoldoende voorafgaande training van één modaliteit, wat leidt tot suboptimale prestaties. Om deze uitdagingen aan te pakken, stellen we het Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT) voor, een geïntegreerd PLM voor gezamenlijke cel- en tekstmodellering. scMMGPT integreert effectief de state-of-the-art cel- en tekst-PLMs, waardoor kruismodale kennisuitwisseling wordt gefaciliteerd voor verbeterde prestaties. Om de kloof tussen tekst- en celmodaliteiten te overbruggen, maakt scMMGPT gebruik van toegewijde kruismodale projectoren en ondergaat het uitgebreide voorafgaande training op 27 miljoen cellen – de grootste dataset voor multimodale cel-tekst-PLMs tot nu toe. Deze grootschalige voorafgaande training stelt scMMGPT in staat om uit te blinken in gezamenlijke cel-teksttaken, met een relatieve verbetering van 84% in tekstuele discrepantie voor celbeschrijvingsgeneratie, 20,5% hogere nauwkeurigheid voor celtypeannotatie en een verbetering van 4% in k-NN-nauwkeurigheid voor tekst-geconditioneerde pseudo-celgeneratie, waarmee het de baseline-methoden overtreft.

English

Pre-trained language models (PLMs) have revolutionized scientific research, yet their application to single-cell analysis remains limited. Text PLMs cannot process single-cell RNA sequencing data, while cell PLMs lack the ability to handle free text, restricting their use in multimodal tasks. Existing efforts to bridge these modalities often suffer from information loss or inadequate single-modal pre-training, leading to suboptimal performances. To address these challenges, we propose Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), a unified PLM for joint cell and text modeling. scMMGPT effectively integrates the state-of-the-art cell and text PLMs, facilitating cross-modal knowledge sharing for improved performance. To bridge the text-cell modality gap, scMMGPT leverages dedicated cross-modal projectors, and undergoes extensive pre-training on 27 million cells -- the largest dataset for multimodal cell-text PLMs to date. This large-scale pre-training enables scMMGPT to excel in joint cell-text tasks, achieving an 84\% relative improvement of textual discrepancy for cell description generation, 20.5\% higher accuracy for cell type annotation, and 4\% improvement in k-NN accuracy for text-conditioned pseudo-cell generation, outperforming baselines.

Multimodale Taalmodellering voor Nauwkeurige Enkelcel Transcriptomische Analyse en Generatie

Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation

Samenvatting

Summary

Support

Support