ChatPaper.aiChatPaper

Un Copiloto de IA Multimodal para Análisis de Células Individuales con Instrucciones a Seguir

A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

January 14, 2025
Autores: Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen
cs.AI

Resumen

Los grandes modelos de lenguaje destacan en la interpretación de instrucciones complejas en lenguaje natural, lo que les permite realizar una amplia gama de tareas. En las ciencias de la vida, los datos de secuenciación de ARN de células individuales (scRNA-seq) sirven como el "lenguaje de la biología celular", capturando patrones intrincados de expresión génica a nivel de célula única. Sin embargo, interactuar con este "lenguaje" a través de herramientas convencionales a menudo es ineficiente y poco intuitivo, planteando desafíos para los investigadores. Para abordar estas limitaciones, presentamos InstructCell, un copiloto de IA multimodal que aprovecha el lenguaje natural como un medio para un análisis de células individuales más directo y flexible. Construimos un conjunto de datos de instrucciones multimodal integral que combina instrucciones basadas en texto con perfiles de scRNA-seq de diversos tejidos y especies. Sobre esta base, desarrollamos una arquitectura de lenguaje celular multimodal capaz de interpretar y procesar simultáneamente ambas modalidades. InstructCell capacita a los investigadores para llevar a cabo tareas críticas, como la anotación de tipos celulares, la generación condicional de pseudo-células y la predicción de sensibilidad a fármacos, utilizando comandos sencillos en lenguaje natural. Evaluaciones extensas demuestran que InstructCell cumple consistentemente o supera el rendimiento de los modelos de base de células individuales existentes, adaptándose a diversas condiciones experimentales. Más importante aún, InstructCell proporciona una herramienta accesible e intuitiva para explorar datos complejos de células individuales, reduciendo las barreras técnicas y permitiendo una comprensión biológica más profunda.
English
Large language models excel at interpreting complex natural language instructions, enabling them to perform a wide range of tasks. In the life sciences, single-cell RNA sequencing (scRNA-seq) data serves as the "language of cellular biology", capturing intricate gene expression patterns at the single-cell level. However, interacting with this "language" through conventional tools is often inefficient and unintuitive, posing challenges for researchers. To address these limitations, we present InstructCell, a multi-modal AI copilot that leverages natural language as a medium for more direct and flexible single-cell analysis. We construct a comprehensive multi-modal instruction dataset that pairs text-based instructions with scRNA-seq profiles from diverse tissues and species. Building on this, we develop a multi-modal cell language architecture capable of simultaneously interpreting and processing both modalities. InstructCell empowers researchers to accomplish critical tasks-such as cell type annotation, conditional pseudo-cell generation, and drug sensitivity prediction-using straightforward natural language commands. Extensive evaluations demonstrate that InstructCell consistently meets or exceeds the performance of existing single-cell foundation models, while adapting to diverse experimental conditions. More importantly, InstructCell provides an accessible and intuitive tool for exploring complex single-cell data, lowering technical barriers and enabling deeper biological insights.

Summary

AI-Generated Summary

PDF272January 15, 2025