Pathology-CoT: Обучение визуального агента с цепочкой рассуждений на основе экспертного анализа полных изображений слайдов в диагностике

Аннотация

Диагностика изображения целого среза представляет собой интерактивный, многоэтапный процесс, включающий изменения увеличения и перемещение между полями зрения. Хотя современные базовые модели в патологии демонстрируют высокую эффективность, практические агентные системы, которые решают, какое поле исследовать дальше, регулируют увеличение и предоставляют объяснимые диагнозы, всё ещё отсутствуют. Основным препятствием являются данные: масштабируемый, клинически ориентированный надзор за поведением экспертов при просмотре, которое является неявным и основанным на опыте, не описанным в учебниках или онлайн, и поэтому отсутствует в обучении крупных языковых моделей. Мы представляем AI Session Recorder, который работает со стандартными программами просмотра WSI, незаметно записывая рутинную навигацию и преобразуя логи просмотра в стандартизированные поведенческие команды (осмотр или беглый просмотр на определённых увеличениях) и ограничивающие рамки. Лёгкий процесс проверки с участием человека превращает рациональные объяснения, сгенерированные ИИ, в набор данных Pathology-CoT — форму парного надзора "куда смотреть" и "почему это важно", создаваемого примерно в шесть раз быстрее. Используя эти поведенческие данные, мы создаём Pathologist-o3 — двухэтапного агента, который сначала предлагает области интереса, а затем выполняет рассуждения, основанные на поведении. В задаче обнаружения метастазов в лимфатических узлах желудочно-кишечного тракта он достиг точности 84,5%, полноты 100,0% и точности классификации 75,4%, превзойдя современную модель OpenAI o3 и демонстрируя обобщаемость на различных архитектурах. Насколько нам известно, это одна из первых агентных систем в патологии, основанных на поведении. Преобразуя повседневные логи просмотра в масштабируемый, проверенный экспертами надзор, наш подход делает агентную патологию практичной и прокладывает путь к клиническому ИИ, ориентированному на человека и способному к обновлению.

English

Diagnosing a whole-slide image is an interactive, multi-stage process involving changes in magnification and movement between fields. Although recent pathology foundation models are strong, practical agentic systems that decide what field to examine next, adjust magnification, and deliver explainable diagnoses are still lacking. The blocker is data: scalable, clinically aligned supervision of expert viewing behavior that is tacit and experience-based, not written in textbooks or online, and therefore absent from large language model training. We introduce the AI Session Recorder, which works with standard WSI viewers to unobtrusively record routine navigation and convert the viewer logs into standardized behavioral commands (inspect or peek at discrete magnifications) and bounding boxes. A lightweight human-in-the-loop review turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired "where to look" and "why it matters" supervision produced at roughly six times lower labeling time. Using this behavioral data, we build Pathologist-o3, a two-stage agent that first proposes regions of interest and then performs behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection, it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the state-of-the-art OpenAI o3 model and generalizing across backbones. To our knowledge, this constitutes one of the first behavior-grounded agentic systems in pathology. Turning everyday viewer logs into scalable, expert-validated supervision, our framework makes agentic pathology practical and establishes a path to human-aligned, upgradeable clinical AI.

Pathology-CoT: Обучение визуального агента с цепочкой рассуждений на основе экспертного анализа полных изображений слайдов в диагностике

Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior

Аннотация

Support