Pathology-CoT: Обучение визуального агента с цепочкой рассуждений на основе экспертного анализа полных изображений слайдов в диагностике
Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior
October 6, 2025
Авторы: Sheng Wang, Ruiming Wu, Charles Herndon, Yihang Liu, Shunsuke Koga, Jeanne Shen, Zhi Huang
cs.AI
Аннотация
Диагностика изображения целого среза представляет собой интерактивный, многоэтапный процесс, включающий изменения увеличения и перемещение между полями зрения. Хотя современные базовые модели в патологии демонстрируют высокую эффективность, практические агентные системы, которые решают, какое поле исследовать дальше, регулируют увеличение и предоставляют объяснимые диагнозы, всё ещё отсутствуют. Основным препятствием являются данные: масштабируемый, клинически ориентированный надзор за поведением экспертов при просмотре, которое является неявным и основанным на опыте, не описанным в учебниках или онлайн, и поэтому отсутствует в обучении крупных языковых моделей. Мы представляем AI Session Recorder, который работает со стандартными программами просмотра WSI, незаметно записывая рутинную навигацию и преобразуя логи просмотра в стандартизированные поведенческие команды (осмотр или беглый просмотр на определённых увеличениях) и ограничивающие рамки. Лёгкий процесс проверки с участием человека превращает рациональные объяснения, сгенерированные ИИ, в набор данных Pathology-CoT — форму парного надзора "куда смотреть" и "почему это важно", создаваемого примерно в шесть раз быстрее. Используя эти поведенческие данные, мы создаём Pathologist-o3 — двухэтапного агента, который сначала предлагает области интереса, а затем выполняет рассуждения, основанные на поведении. В задаче обнаружения метастазов в лимфатических узлах желудочно-кишечного тракта он достиг точности 84,5%, полноты 100,0% и точности классификации 75,4%, превзойдя современную модель OpenAI o3 и демонстрируя обобщаемость на различных архитектурах. Насколько нам известно, это одна из первых агентных систем в патологии, основанных на поведении. Преобразуя повседневные логи просмотра в масштабируемый, проверенный экспертами надзор, наш подход делает агентную патологию практичной и прокладывает путь к клиническому ИИ, ориентированному на человека и способному к обновлению.
English
Diagnosing a whole-slide image is an interactive, multi-stage process
involving changes in magnification and movement between fields. Although recent
pathology foundation models are strong, practical agentic systems that decide
what field to examine next, adjust magnification, and deliver explainable
diagnoses are still lacking. The blocker is data: scalable, clinically aligned
supervision of expert viewing behavior that is tacit and experience-based, not
written in textbooks or online, and therefore absent from large language model
training. We introduce the AI Session Recorder, which works with standard WSI
viewers to unobtrusively record routine navigation and convert the viewer logs
into standardized behavioral commands (inspect or peek at discrete
magnifications) and bounding boxes. A lightweight human-in-the-loop review
turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired
"where to look" and "why it matters" supervision produced at roughly six times
lower labeling time. Using this behavioral data, we build Pathologist-o3, a
two-stage agent that first proposes regions of interest and then performs
behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection,
it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the
state-of-the-art OpenAI o3 model and generalizing across backbones. To our
knowledge, this constitutes one of the first behavior-grounded agentic systems
in pathology. Turning everyday viewer logs into scalable, expert-validated
supervision, our framework makes agentic pathology practical and establishes a
path to human-aligned, upgradeable clinical AI.