ChatPaper.aiChatPaper

scPilot: 단일 세포 분석 및 발견 자동화를 위한 대규모 언어 모델 추론

scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery

February 12, 2026
저자: Yiming Gao, Zhen Wang, Jefferson Chen, Mark Antkowiak, Mengzhou Hu, JungHo Kong, Dexter Pratt, Jieyuan Liu, Enze Ma, Zhiting Hu, Eric P. Xing
cs.AI

초록

우리는 오믹스-네이티브 추론(omics-native reasoning)을 실천하는 최초의 체계적 프레임워크인 scPilot을 소개한다. 이는 대규모 언어 모델(LLM)이 단일세포 RNA-seq 데이터와 주문형 생물정보학 도구를 직접 검사하면서 자연어로 대화하는 방식이다. scPilot은 핵심 단일세포 분석(세포 유형 주석, 발달 궤적 재구성, 전사 인자 표적 분석)을 단계별 추론 문제로 변환하여 모델이 해결하고, 근거를 제시하며, 필요시 새로운 증거로 수정하도록 요구한다. 진전을 측정하기 위해, 우리는 scBench를 공개한다. 이는 9개의 전문가 검수 데이터셋과 채점자(graders)로 구성된 제품군으로, 다양한 LLM 대비 scPilot의 오믹스-네이티브 추론 능력을 충실히 평가한다. o1을 이용한 실험에서, 반복적 오믹스-네이티브 추론은 세포 유형 주석 평균 정확도를 11% 향상시켰으며, Gemini-2.5-Pro은 원샷 프롬프팅 대비 궤적 그래프 편집 거리를 30% 절감하는 동시에 마커 유전자 모호성과 조절 논리를 설명하는 투명한 추론 흔적을 생성했다. LLM을 원시 오믹스 데이터에 기반하게 함으로써, scPilot은 검증 가능하고 해석 가능하며 진단 정보를 제공하는 단일세포 분석을 가능하게 한다. 코드, 데이터 및 패키지는 https://github.com/maitrix-org/scPilot에서 이용할 수 있다.
English
We present scPilot, the first systematic framework to practice omics-native reasoning: a large language model (LLM) converses in natural language while directly inspecting single-cell RNA-seq data and on-demand bioinformatics tools. scPilot converts core single-cell analyses, i.e., cell-type annotation, developmental-trajectory reconstruction, and transcription-factor targeting, into step-by-step reasoning problems that the model must solve, justify, and, when needed, revise with new evidence. To measure progress, we release scBench, a suite of 9 expertly curated datasets and graders that faithfully evaluate the omics-native reasoning capability of scPilot w.r.t various LLMs. Experiments with o1 show that iterative omics-native reasoning lifts average accuracy by 11% for cell-type annotation and Gemini-2.5-Pro cuts trajectory graph-edit distance by 30% versus one-shot prompting, while generating transparent reasoning traces explain marker gene ambiguity and regulatory logic. By grounding LLMs in raw omics data, scPilot enables auditable, interpretable, and diagnostically informative single-cell analyses. Code, data, and package are available at https://github.com/maitrix-org/scPilot
PDF12February 17, 2026