LLM4Cell: Eine Übersicht über große Sprachmodelle und agentenbasierte Modelle für die Einzelzellbiologie
LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
October 9, 2025
papers.authors: Sajib Acharjee Dip, Adrika Zafor, Bikash Kumar Paul, Uddip Acharjee Shuvo, Muhit Islam Emon, Xuan Wang, Liqing Zhang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) und aufkommende agentenbasierte Frameworks beginnen, die Einzelzellbiologie zu transformieren, indem sie natürliche Sprachverarbeitung, generative Annotation und multimodale Datenintegration ermöglichen. Dennoch bleibt der Fortschritt über Datenmodalitäten, Architekturen und Bewertungsstandards hinweg fragmentiert. LLM4Cell präsentiert die erste einheitliche Übersicht über 58 Grundlagen- und agentenbasierte Modelle, die für die Einzelzellforschung entwickelt wurden und RNA, ATAC, Multi-Omics und räumliche Modalitäten abdecken. Wir kategorisieren diese Methoden in fünf Familien – Grundlagen, Textbrücke, räumlich, multimodal, epigenomisch und agentenbasiert – und ordnen sie acht zentralen analytischen Aufgaben zu, darunter Annotation, Trajektorien- und Perturbationsmodellierung sowie Arzneimittelreaktionsvorhersage. Basierend auf über 40 öffentlichen Datensätzen analysieren wir die Eignung von Benchmarks, Datenvielfalt sowie ethische oder Skalierbarkeitsbeschränkungen und bewerten Modelle in 10 Fachdimensionen, die biologische Fundierung, Multi-Omics-Ausrichtung, Fairness, Privatsphäre und Erklärbarkeit abdecken. Durch die Verknüpfung von Datensätzen, Modellen und Bewertungsdomänen bietet LLM4Cell die erste integrierte Sicht auf sprachgesteuerte Einzelzellintelligenz und skizziert offene Herausforderungen in Bezug auf Interpretierbarkeit, Standardisierung und vertrauenswürdige Modellentwicklung.
English
Large language models (LLMs) and emerging agentic frameworks are beginning to
transform single-cell biology by enabling natural-language reasoning,
generative annotation, and multimodal data integration. However, progress
remains fragmented across data modalities, architectures, and evaluation
standards. LLM4Cell presents the first unified survey of 58 foundation and
agentic models developed for single-cell research, spanning RNA, ATAC,
multi-omic, and spatial modalities. We categorize these methods into five
families-foundation, text-bridge, spatial, multimodal, epigenomic, and
agentic-and map them to eight key analytical tasks including annotation,
trajectory and perturbation modeling, and drug-response prediction. Drawing on
over 40 public datasets, we analyze benchmark suitability, data diversity, and
ethical or scalability constraints, and evaluate models across 10 domain
dimensions covering biological grounding, multi-omics alignment, fairness,
privacy, and explainability. By linking datasets, models, and evaluation
domains, LLM4Cell provides the first integrated view of language-driven
single-cell intelligence and outlines open challenges in interpretability,
standardization, and trustworthy model development.