LLM4Cell: Een overzicht van grote taal- en agentmodellen voor enkelcelbiologie
LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
October 9, 2025
Auteurs: Sajib Acharjee Dip, Adrika Zafor, Bikash Kumar Paul, Uddip Acharjee Shuvo, Muhit Islam Emon, Xuan Wang, Liqing Zhang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) en opkomende agent-gebaseerde frameworks beginnen een transformatie teweeg te brengen in de single-cell biologie door natuurlijke-taalredenering, generatieve annotatie en multimodale dataintegratie mogelijk te maken. Toch blijft de vooruitgang gefragmenteerd over verschillende datamodaliteiten, architecturen en evaluatiestandaarden. LLM4Cell presenteert de eerste geïntegreerde overzicht van 58 foundation- en agent-gebaseerde modellen die zijn ontwikkeld voor single-cell onderzoek, waarbij RNA, ATAC, multi-omische en ruimtelijke modaliteiten worden bestreken. We categoriseren deze methoden in vijf families—foundation, tekst-brug, ruimtelijk, multimodaal, epigenomisch en agent-gebaseerd—en koppelen ze aan acht belangrijke analytische taken, waaronder annotatie, traject- en perturbatiemodellering, en medicijnresponsvoorspelling. Gebaseerd op meer dan 40 openbare datasets, analyseren we de geschiktheid van benchmarks, datadiversiteit, en ethische of schaalbaarheidsbeperkingen, en evalueren we modellen over 10 domeindimensies die biologische grondslag, multi-omics alignering, eerlijkheid, privacy en uitlegbaarheid omvatten. Door datasets, modellen en evaluatiedomeinen met elkaar te verbinden, biedt LLM4Cell het eerste geïntegreerde overzicht van taalgedreven single-cell intelligentie en schetst het open uitdagingen op het gebied van interpreteerbaarheid, standaardisatie en betrouwbare modelontwikkeling.
English
Large language models (LLMs) and emerging agentic frameworks are beginning to
transform single-cell biology by enabling natural-language reasoning,
generative annotation, and multimodal data integration. However, progress
remains fragmented across data modalities, architectures, and evaluation
standards. LLM4Cell presents the first unified survey of 58 foundation and
agentic models developed for single-cell research, spanning RNA, ATAC,
multi-omic, and spatial modalities. We categorize these methods into five
families-foundation, text-bridge, spatial, multimodal, epigenomic, and
agentic-and map them to eight key analytical tasks including annotation,
trajectory and perturbation modeling, and drug-response prediction. Drawing on
over 40 public datasets, we analyze benchmark suitability, data diversity, and
ethical or scalability constraints, and evaluate models across 10 domain
dimensions covering biological grounding, multi-omics alignment, fairness,
privacy, and explainability. By linking datasets, models, and evaluation
domains, LLM4Cell provides the first integrated view of language-driven
single-cell intelligence and outlines open challenges in interpretability,
standardization, and trustworthy model development.