LLM4Cell: Обзор крупных языковых и агентных моделей для биологии единичных клеток
LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
October 9, 2025
Авторы: Sajib Acharjee Dip, Adrika Zafor, Bikash Kumar Paul, Uddip Acharjee Shuvo, Muhit Islam Emon, Xuan Wang, Liqing Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) и развивающиеся агентные фреймворки начинают преобразовывать одноклеточную биологию, обеспечивая естественно-языковое рассуждение, генеративную аннотацию и интеграцию мультимодальных данных. Однако прогресс остается фрагментированным в различных модальностях данных, архитектурах и стандартах оценки. LLM4Cell представляет первое унифицированное исследование 58 базовых и агентных моделей, разработанных для одноклеточных исследований, охватывающих модальности RNA, ATAC, мультиомику и пространственные данные. Мы классифицируем эти методы на пять семейств — базовые, текстовые мосты, пространственные, мультимодальные, эпигеномные и агентные — и связываем их с восемью ключевыми аналитическими задачами, включая аннотацию, моделирование траекторий и возмущений, а также предсказание реакции на лекарства. Используя более 40 публичных наборов данных, мы анализируем пригодность бенчмарков, разнообразие данных, а также этические и масштабируемые ограничения, и оцениваем модели по 10 доменным измерениям, охватывающим биологическую обоснованность, согласованность мультиомики, справедливость, конфиденциальность и объяснимость. Связывая наборы данных, модели и области оценки, LLM4Cell предоставляет первый интегрированный взгляд на языковую одноклеточную интеллектуальность и обозначает открытые вызовы в интерпретируемости, стандартизации и разработке доверенных моделей.
English
Large language models (LLMs) and emerging agentic frameworks are beginning to
transform single-cell biology by enabling natural-language reasoning,
generative annotation, and multimodal data integration. However, progress
remains fragmented across data modalities, architectures, and evaluation
standards. LLM4Cell presents the first unified survey of 58 foundation and
agentic models developed for single-cell research, spanning RNA, ATAC,
multi-omic, and spatial modalities. We categorize these methods into five
families-foundation, text-bridge, spatial, multimodal, epigenomic, and
agentic-and map them to eight key analytical tasks including annotation,
trajectory and perturbation modeling, and drug-response prediction. Drawing on
over 40 public datasets, we analyze benchmark suitability, data diversity, and
ethical or scalability constraints, and evaluate models across 10 domain
dimensions covering biological grounding, multi-omics alignment, fairness,
privacy, and explainability. By linking datasets, models, and evaluation
domains, LLM4Cell provides the first integrated view of language-driven
single-cell intelligence and outlines open challenges in interpretability,
standardization, and trustworthy model development.