Un Copilote AI Multi-Modal pour l'Analyse de Cellules Simples avec Instruction Suivante
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following
January 14, 2025
Auteurs: Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen
cs.AI
Résumé
Les grands modèles de langage excellent dans l'interprétation d'instructions complexes en langage naturel, ce qui leur permet d'accomplir une large gamme de tâches. Dans les sciences de la vie, les données de séquençage d'ARN de cellules uniques (scRNA-seq) servent de "langage de la biologie cellulaire", capturant des schémas complexes d'expression génique au niveau de la cellule individuelle. Cependant, interagir avec ce "langage" à travers des outils conventionnels est souvent inefficace et peu intuitif, posant des défis aux chercheurs. Pour répondre à ces limitations, nous présentons InstructCell, un copilote AI multimodal qui exploite le langage naturel comme un moyen pour une analyse de cellules individuelles plus directe et flexible. Nous construisons un ensemble de données d'instructions multimodal complet qui associe des instructions basées sur du texte à des profils scRNA-seq provenant de divers tissus et espèces. En nous appuyant sur cela, nous développons une architecture de langage cellulaire multimodal capable d'interpréter et de traiter simultanément les deux modalités. InstructCell permet aux chercheurs d'accomplir des tâches critiques telles que l'annotation des types de cellules, la génération conditionnelle de pseudo-cellules et la prédiction de la sensibilité aux médicaments en utilisant des commandes simples en langage naturel. Des évaluations approfondies démontrent qu'InstructCell répond de manière constante ou dépasse les performances des modèles de base de données de cellules uniques existants, tout en s'adaptant à des conditions expérimentales diverses. Plus important encore, InstructCell fournit un outil accessible et intuitif pour explorer des données complexes de cellules individuelles, réduisant les barrières techniques et permettant des insights biologiques plus approfondis.
English
Large language models excel at interpreting complex natural language
instructions, enabling them to perform a wide range of tasks. In the life
sciences, single-cell RNA sequencing (scRNA-seq) data serves as the "language
of cellular biology", capturing intricate gene expression patterns at the
single-cell level. However, interacting with this "language" through
conventional tools is often inefficient and unintuitive, posing challenges for
researchers. To address these limitations, we present InstructCell, a
multi-modal AI copilot that leverages natural language as a medium for more
direct and flexible single-cell analysis. We construct a comprehensive
multi-modal instruction dataset that pairs text-based instructions with
scRNA-seq profiles from diverse tissues and species. Building on this, we
develop a multi-modal cell language architecture capable of simultaneously
interpreting and processing both modalities. InstructCell empowers researchers
to accomplish critical tasks-such as cell type annotation, conditional
pseudo-cell generation, and drug sensitivity prediction-using straightforward
natural language commands. Extensive evaluations demonstrate that InstructCell
consistently meets or exceeds the performance of existing single-cell
foundation models, while adapting to diverse experimental conditions. More
importantly, InstructCell provides an accessible and intuitive tool for
exploring complex single-cell data, lowering technical barriers and enabling
deeper biological insights.Summary
AI-Generated Summary