ChatPaper.aiChatPaper

scPilot : Raisonnement par Grand Modèle de Langage pour une Analyse et Découverte Automatisée en Monocellulaire

scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery

February 12, 2026
papers.authors: Yiming Gao, Zhen Wang, Jefferson Chen, Mark Antkowiak, Mengzhou Hu, JungHo Kong, Dexter Pratt, Jieyuan Liu, Enze Ma, Zhiting Hu, Eric P. Xing
cs.AI

papers.abstract

Nous présentons scPilot, le premier cadre systématique pour pratiquer le raisonnement natif des omiques : un grand modèle de langage (LLM) converse en langage naturel tout en inspectant directement des données de séquençage d'ARN unicellulaire (scRNA-seq) et des outils bioinformatiques à la demande. scPilot convertit les analyses fondamentales en biologie unicellulaire, à savoir l'annotation des types cellulaires, la reconstruction des trajectoires développementales et le ciblage des facteurs de transcription, en problèmes de raisonnement étape par étape que le modèle doit résoudre, justifier et, si nécessaire, réviser avec de nouvelles preuves. Pour mesurer les progrès, nous publions scBench, une suite de 9 jeux de données expertement constitués et d'évaluateurs qui testent fidèlement la capacité de raisonnement natif des omiques de scPilot par rapport à divers LLMs. Les expériences avec o1 montrent que le raisonnement natif itératif améliore la précision moyenne de 11 % pour l'annotation des types cellulaires, et Gemini-2.5-Pro réduit la distance d'édition des graphes de trajectoire de 30 % par rapport à l'invocation directe (one-shot prompting), tout en générant des traces de raisonnement transparentes qui expliquent l'ambiguïté des gènes marqueurs et la logique régulatoire. En ancrant les LLMs dans les données omiques brutes, scPilot permet des analyses unicellulaires vérifiables, interprétables et riches en informations diagnostiques. Le code, les données et le package sont disponibles à l'adresse https://github.com/maitrix-org/scPilot.
English
We present scPilot, the first systematic framework to practice omics-native reasoning: a large language model (LLM) converses in natural language while directly inspecting single-cell RNA-seq data and on-demand bioinformatics tools. scPilot converts core single-cell analyses, i.e., cell-type annotation, developmental-trajectory reconstruction, and transcription-factor targeting, into step-by-step reasoning problems that the model must solve, justify, and, when needed, revise with new evidence. To measure progress, we release scBench, a suite of 9 expertly curated datasets and graders that faithfully evaluate the omics-native reasoning capability of scPilot w.r.t various LLMs. Experiments with o1 show that iterative omics-native reasoning lifts average accuracy by 11% for cell-type annotation and Gemini-2.5-Pro cuts trajectory graph-edit distance by 30% versus one-shot prompting, while generating transparent reasoning traces explain marker gene ambiguity and regulatory logic. By grounding LLMs in raw omics data, scPilot enables auditable, interpretable, and diagnostically informative single-cell analyses. Code, data, and package are available at https://github.com/maitrix-org/scPilot
PDF12February 17, 2026