LLM4Cell: Uma Análise de Modelos de Linguagem de Grande Escala e Agentes para Biologia de Célula Única
LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
October 9, 2025
Autores: Sajib Acharjee Dip, Adrika Zafor, Bikash Kumar Paul, Uddip Acharjee Shuvo, Muhit Islam Emon, Xuan Wang, Liqing Zhang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) e frameworks agentes emergentes estão começando a transformar a biologia de célula única ao permitir raciocínio em linguagem natural, anotação generativa e integração de dados multimodais. No entanto, o progresso permanece fragmentado entre modalidades de dados, arquiteturas e padrões de avaliação. O LLM4Cell apresenta o primeiro levantamento unificado de 58 modelos fundamentais e agentes desenvolvidos para pesquisa em célula única, abrangendo modalidades de RNA, ATAC, multi-ômicas e espaciais. Categorizamos esses métodos em cinco famílias — fundamentais, ponte-texto, espaciais, multimodais, epigenômicos e agentes — e os mapeamos para oito tarefas analíticas principais, incluindo anotação, modelagem de trajetória e perturbação, e previsão de resposta a drogas. Com base em mais de 40 conjuntos de dados públicos, analisamos a adequação de benchmarks, diversidade de dados e restrições éticas ou de escalabilidade, e avaliamos os modelos em 10 dimensões de domínio, cobrindo fundamentação biológica, alinhamento multi-ômico, justiça, privacidade e explicabilidade. Ao vincular conjuntos de dados, modelos e domínios de avaliação, o LLM4Cell fornece a primeira visão integrada da inteligência de célula única impulsionada por linguagem e delineia desafios abertos em interpretabilidade, padronização e desenvolvimento confiável de modelos.
English
Large language models (LLMs) and emerging agentic frameworks are beginning to
transform single-cell biology by enabling natural-language reasoning,
generative annotation, and multimodal data integration. However, progress
remains fragmented across data modalities, architectures, and evaluation
standards. LLM4Cell presents the first unified survey of 58 foundation and
agentic models developed for single-cell research, spanning RNA, ATAC,
multi-omic, and spatial modalities. We categorize these methods into five
families-foundation, text-bridge, spatial, multimodal, epigenomic, and
agentic-and map them to eight key analytical tasks including annotation,
trajectory and perturbation modeling, and drug-response prediction. Drawing on
over 40 public datasets, we analyze benchmark suitability, data diversity, and
ethical or scalability constraints, and evaluate models across 10 domain
dimensions covering biological grounding, multi-omics alignment, fairness,
privacy, and explainability. By linking datasets, models, and evaluation
domains, LLM4Cell provides the first integrated view of language-driven
single-cell intelligence and outlines open challenges in interpretability,
standardization, and trustworthy model development.