LLM4Cell : Une étude des modèles de langage étendus et agentiques pour la biologie unicellulaire
LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
October 9, 2025
papers.authors: Sajib Acharjee Dip, Adrika Zafor, Bikash Kumar Paul, Uddip Acharjee Shuvo, Muhit Islam Emon, Xuan Wang, Liqing Zhang
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) et les cadres agentiques émergents commencent à transformer la biologie unicellulaire en permettant le raisonnement en langage naturel, l'annotation générative et l'intégration de données multimodales. Cependant, les progrès restent fragmentés entre les modalités de données, les architectures et les normes d'évaluation. LLM4Cell présente la première étude unifiée de 58 modèles de base et agentiques développés pour la recherche unicellulaire, couvrant les modalités RNA, ATAC, multi-omiques et spatiales. Nous catégorisons ces méthodes en cinq familles - fondation, pont textuel, spatial, multimodal, épigénomique et agentique - et les cartographions à huit tâches analytiques clés, incluant l'annotation, la modélisation de trajectoires et de perturbations, et la prédiction de réponse aux médicaments. En nous appuyant sur plus de 40 ensembles de données publics, nous analysons la pertinence des benchmarks, la diversité des données, ainsi que les contraintes éthiques ou de scalabilité, et évaluons les modèles selon 10 dimensions couvrant l'ancrage biologique, l'alignement multi-omique, l'équité, la confidentialité et l'explicabilité. En reliant les ensembles de données, les modèles et les domaines d'évaluation, LLM4Cell offre la première vue intégrée de l'intelligence unicellulaire pilotée par le langage et souligne les défis ouverts en matière d'interprétabilité, de standardisation et de développement de modèles dignes de confiance.
English
Large language models (LLMs) and emerging agentic frameworks are beginning to
transform single-cell biology by enabling natural-language reasoning,
generative annotation, and multimodal data integration. However, progress
remains fragmented across data modalities, architectures, and evaluation
standards. LLM4Cell presents the first unified survey of 58 foundation and
agentic models developed for single-cell research, spanning RNA, ATAC,
multi-omic, and spatial modalities. We categorize these methods into five
families-foundation, text-bridge, spatial, multimodal, epigenomic, and
agentic-and map them to eight key analytical tasks including annotation,
trajectory and perturbation modeling, and drug-response prediction. Drawing on
over 40 public datasets, we analyze benchmark suitability, data diversity, and
ethical or scalability constraints, and evaluate models across 10 domain
dimensions covering biological grounding, multi-omics alignment, fairness,
privacy, and explainability. By linking datasets, models, and evaluation
domains, LLM4Cell provides the first integrated view of language-driven
single-cell intelligence and outlines open challenges in interpretability,
standardization, and trustworthy model development.