LLM4Cell: Un'analisi dei modelli linguistici su larga scala e agentici per la biologia a singola cellula
LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
October 9, 2025
Autori: Sajib Acharjee Dip, Adrika Zafor, Bikash Kumar Paul, Uddip Acharjee Shuvo, Muhit Islam Emon, Xuan Wang, Liqing Zhang
cs.AI
Abstract
I grandi modelli linguistici (LLM) e i framework agentici emergenti stanno iniziando a trasformare la biologia a singola cellula, abilitando il ragionamento in linguaggio naturale, l'annotazione generativa e l'integrazione di dati multimodali. Tuttavia, i progressi rimangono frammentati tra le diverse modalità di dati, architetture e standard di valutazione. LLM4Cell presenta la prima rassegna unificata di 58 modelli di base e agentici sviluppati per la ricerca a singola cellula, coprendo le modalità RNA, ATAC, multi-omiche e spaziali. Questi metodi vengono categorizzati in cinque famiglie—fondamentali, ponte-testo, spaziali, multimodali, epigenomici e agentici—e mappati su otto compiti analitici chiave, tra cui annotazione, modellazione di traiettorie e perturbazioni, e previsione della risposta ai farmaci. Utilizzando oltre 40 dataset pubblici, analizziamo l'idoneità dei benchmark, la diversità dei dati e i vincoli etici o di scalabilità, e valutiamo i modelli lungo 10 dimensioni di dominio che coprono il radicamento biologico, l'allineamento multi-omico, l'equità, la privacy e l'interpretabilità. Collegando dataset, modelli e domini di valutazione, LLM4Cell fornisce la prima visione integrata dell'intelligenza a singola cellula guidata dal linguaggio e delinea le sfide aperte in termini di interpretabilità, standardizzazione e sviluppo di modelli affidabili.
English
Large language models (LLMs) and emerging agentic frameworks are beginning to
transform single-cell biology by enabling natural-language reasoning,
generative annotation, and multimodal data integration. However, progress
remains fragmented across data modalities, architectures, and evaluation
standards. LLM4Cell presents the first unified survey of 58 foundation and
agentic models developed for single-cell research, spanning RNA, ATAC,
multi-omic, and spatial modalities. We categorize these methods into five
families-foundation, text-bridge, spatial, multimodal, epigenomic, and
agentic-and map them to eight key analytical tasks including annotation,
trajectory and perturbation modeling, and drug-response prediction. Drawing on
over 40 public datasets, we analyze benchmark suitability, data diversity, and
ethical or scalability constraints, and evaluate models across 10 domain
dimensions covering biological grounding, multi-omics alignment, fairness,
privacy, and explainability. By linking datasets, models, and evaluation
domains, LLM4Cell provides the first integrated view of language-driven
single-cell intelligence and outlines open challenges in interpretability,
standardization, and trustworthy model development.