LLM4Cell: Un estudio sobre modelos de lenguaje extenso y agentes para biología unicelular
LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
October 9, 2025
Autores: Sajib Acharjee Dip, Adrika Zafor, Bikash Kumar Paul, Uddip Acharjee Shuvo, Muhit Islam Emon, Xuan Wang, Liqing Zhang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y los marcos agentes emergentes están comenzando a transformar la biología de células individuales al permitir el razonamiento en lenguaje natural, la anotación generativa y la integración de datos multimodales. Sin embargo, el progreso sigue siendo fragmentado entre las modalidades de datos, las arquitecturas y los estándares de evaluación. LLM4Cell presenta la primera revisión unificada de 58 modelos base y agentes desarrollados para la investigación de células individuales, abarcando las modalidades de RNA, ATAC, multiómica y espacial. Categorizamos estos métodos en cinco familias—base, puente de texto, espacial, multimodal, epigenómica y agentes—y los mapeamos a ocho tareas analíticas clave, incluyendo anotación, modelado de trayectorias y perturbaciones, y predicción de respuesta a fármacos. Basándonos en más de 40 conjuntos de datos públicos, analizamos la idoneidad de los puntos de referencia, la diversidad de datos y las limitaciones éticas o de escalabilidad, y evaluamos los modelos en 10 dimensiones del dominio que cubren fundamentos biológicos, alineación multiómica, equidad, privacidad y explicabilidad. Al vincular conjuntos de datos, modelos y dominios de evaluación, LLM4Cell ofrece la primera visión integrada de la inteligencia de células individuales impulsada por el lenguaje y describe los desafíos abiertos en interpretabilidad, estandarización y desarrollo de modelos confiables.
English
Large language models (LLMs) and emerging agentic frameworks are beginning to
transform single-cell biology by enabling natural-language reasoning,
generative annotation, and multimodal data integration. However, progress
remains fragmented across data modalities, architectures, and evaluation
standards. LLM4Cell presents the first unified survey of 58 foundation and
agentic models developed for single-cell research, spanning RNA, ATAC,
multi-omic, and spatial modalities. We categorize these methods into five
families-foundation, text-bridge, spatial, multimodal, epigenomic, and
agentic-and map them to eight key analytical tasks including annotation,
trajectory and perturbation modeling, and drug-response prediction. Drawing on
over 40 public datasets, we analyze benchmark suitability, data diversity, and
ethical or scalability constraints, and evaluate models across 10 domain
dimensions covering biological grounding, multi-omics alignment, fairness,
privacy, and explainability. By linking datasets, models, and evaluation
domains, LLM4Cell provides the first integrated view of language-driven
single-cell intelligence and outlines open challenges in interpretability,
standardization, and trustworthy model development.