Un Copiloto de IA Multimodal para Análisis de Células Individuales con Instrucciones a Seguir
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following
January 14, 2025
Autores: Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen
cs.AI
Resumen
Los grandes modelos de lenguaje destacan en la interpretación de instrucciones complejas en lenguaje natural, lo que les permite realizar una amplia gama de tareas. En las ciencias de la vida, los datos de secuenciación de ARN de células individuales (scRNA-seq) sirven como el "lenguaje de la biología celular", capturando patrones intrincados de expresión génica a nivel de célula única. Sin embargo, interactuar con este "lenguaje" a través de herramientas convencionales a menudo es ineficiente y poco intuitivo, planteando desafíos para los investigadores. Para abordar estas limitaciones, presentamos InstructCell, un copiloto de IA multimodal que aprovecha el lenguaje natural como un medio para un análisis de células individuales más directo y flexible. Construimos un conjunto de datos de instrucciones multimodal integral que combina instrucciones basadas en texto con perfiles de scRNA-seq de diversos tejidos y especies. Sobre esta base, desarrollamos una arquitectura de lenguaje celular multimodal capaz de interpretar y procesar simultáneamente ambas modalidades. InstructCell capacita a los investigadores para llevar a cabo tareas críticas, como la anotación de tipos celulares, la generación condicional de pseudo-células y la predicción de sensibilidad a fármacos, utilizando comandos sencillos en lenguaje natural. Evaluaciones extensas demuestran que InstructCell cumple consistentemente o supera el rendimiento de los modelos de base de células individuales existentes, adaptándose a diversas condiciones experimentales. Más importante aún, InstructCell proporciona una herramienta accesible e intuitiva para explorar datos complejos de células individuales, reduciendo las barreras técnicas y permitiendo una comprensión biológica más profunda.
English
Large language models excel at interpreting complex natural language
instructions, enabling them to perform a wide range of tasks. In the life
sciences, single-cell RNA sequencing (scRNA-seq) data serves as the "language
of cellular biology", capturing intricate gene expression patterns at the
single-cell level. However, interacting with this "language" through
conventional tools is often inefficient and unintuitive, posing challenges for
researchers. To address these limitations, we present InstructCell, a
multi-modal AI copilot that leverages natural language as a medium for more
direct and flexible single-cell analysis. We construct a comprehensive
multi-modal instruction dataset that pairs text-based instructions with
scRNA-seq profiles from diverse tissues and species. Building on this, we
develop a multi-modal cell language architecture capable of simultaneously
interpreting and processing both modalities. InstructCell empowers researchers
to accomplish critical tasks-such as cell type annotation, conditional
pseudo-cell generation, and drug sensitivity prediction-using straightforward
natural language commands. Extensive evaluations demonstrate that InstructCell
consistently meets or exceeds the performance of existing single-cell
foundation models, while adapting to diverse experimental conditions. More
importantly, InstructCell provides an accessible and intuitive tool for
exploring complex single-cell data, lowering technical barriers and enabling
deeper biological insights.Summary
AI-Generated Summary