ChatPaper.aiChatPaper

scPilot: Рассуждения больших языковых моделей для автоматизированного анализа и открытий в области одноклеточных данных

scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery

February 12, 2026
Авторы: Yiming Gao, Zhen Wang, Jefferson Chen, Mark Antkowiak, Mengzhou Hu, JungHo Kong, Dexter Pratt, Jieyuan Liu, Enze Ma, Zhiting Hu, Eric P. Xing
cs.AI

Аннотация

Мы представляем scPilot — первую системную платформу для реализации омикс-нативного анализа: большая языковая модель (LLM) ведёт диалог на естественном языке, напрямую исследуя данные single-cell RNA-seq и используя биоинформатические инструменты по требованию. scPilot преобразует ключевые этапы анализа одноклеточных данных, такие как аннотация типов клеток, реконструкция траекторий развития и идентификация мишеней транскрипционных факторов, в пошаговые задачи логического вывода, которые модель должна решать, обосновывать и при необходимости пересматривать на основе новых данных. Для оценки прогресса мы представляем scBench — набор из 9 экспертно подготовленных наборов данных и систем оценки, которые достоверно измеряют способность scPilot к омикс-нативному анализу в сравнении с различными LLM. Эксперименты с моделью o1 показали, что итеративный омикс-нативный анализ повышает среднюю точность аннотации типов клеток на 11%, а Gemini-2.5-Pro сокращает граф-edit расстояние для траекторий на 30% по сравнению с одношаговым запросом, одновременно генерируя прозрачные цепочки рассуждений, объясняющие неоднозначность маркерных генов и регуляторную логику. Обеспечивая работу LLM с исходными омикс-данными, scPilot делает анализ одноклеточных данных проверяемым, интерпретируемым и диагностически информативным. Код, данные и пакет доступны по адресу https://github.com/maitrix-org/scPilot.
English
We present scPilot, the first systematic framework to practice omics-native reasoning: a large language model (LLM) converses in natural language while directly inspecting single-cell RNA-seq data and on-demand bioinformatics tools. scPilot converts core single-cell analyses, i.e., cell-type annotation, developmental-trajectory reconstruction, and transcription-factor targeting, into step-by-step reasoning problems that the model must solve, justify, and, when needed, revise with new evidence. To measure progress, we release scBench, a suite of 9 expertly curated datasets and graders that faithfully evaluate the omics-native reasoning capability of scPilot w.r.t various LLMs. Experiments with o1 show that iterative omics-native reasoning lifts average accuracy by 11% for cell-type annotation and Gemini-2.5-Pro cuts trajectory graph-edit distance by 30% versus one-shot prompting, while generating transparent reasoning traces explain marker gene ambiguity and regulatory logic. By grounding LLMs in raw omics data, scPilot enables auditable, interpretable, and diagnostically informative single-cell analyses. Code, data, and package are available at https://github.com/maitrix-org/scPilot
PDF12February 17, 2026