Pathology-CoT: Apprendimento di un Agente a Catena di Pensiero Visivo dal Comportamento Diagnostico su Immagini di Interi Vetrini da Esperti
Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior
October 6, 2025
Autori: Sheng Wang, Ruiming Wu, Charles Herndon, Yihang Liu, Shunsuke Koga, Jeanne Shen, Zhi Huang
cs.AI
Abstract
La diagnosi di un'immagine a tutto vetrino è un processo interattivo e multi-stadio che coinvolge cambiamenti di ingrandimento e movimenti tra i campi. Sebbene i recenti modelli di base per la patologia siano robusti, mancano ancora sistemi agentici pratici che decidano quale campo esaminare successivamente, regolino l'ingrandimento e forniscano diagnosi spiegabili. L'ostacolo principale è rappresentato dai dati: una supervisione scalabile e clinicamente allineata del comportamento di osservazione degli esperti, che è tacito e basato sull'esperienza, non scritto nei libri di testo o online, e quindi assente dall'addestramento dei grandi modelli linguistici. Introduciamo l'AI Session Recorder, che lavora con i visualizzatori standard di WSI per registrare in modo non invasivo la navigazione di routine e convertire i log di visualizzazione in comandi comportamentali standardizzati (ispezionare o dare un'occhiata a ingrandimenti discreti) e bounding box. Una revisione leggera con l'uomo nel ciclo trasforma le motivazioni abbozzate dall'IA nel dataset Pathology-CoT, una forma di supervisione accoppiata "dove guardare" e "perché è importante" prodotta con un tempo di etichettatura circa sei volte inferiore. Utilizzando questi dati comportamentali, costruiamo Pathologist-o3, un agente a due stadi che prima propone regioni di interesse e poi esegue un ragionamento guidato dal comportamento. Nel rilevamento delle metastasi linfonodali gastrointestinali, ha raggiunto una precisione dell'84,5%, un richiamo del 100,0% e un'accuratezza del 75,4%, superando il modello OpenAI o3 all'avanguardia e generalizzando su diverse architetture. A nostra conoscenza, questo costituisce uno dei primi sistemi agentici basati sul comportamento in patologia. Trasformando i log di visualizzazione quotidiani in una supervisione scalabile e validata da esperti, il nostro framework rende pratica l'IA agentica in patologia e stabilisce un percorso verso un'IA clinica allineata all'uomo e aggiornabile.
English
Diagnosing a whole-slide image is an interactive, multi-stage process
involving changes in magnification and movement between fields. Although recent
pathology foundation models are strong, practical agentic systems that decide
what field to examine next, adjust magnification, and deliver explainable
diagnoses are still lacking. The blocker is data: scalable, clinically aligned
supervision of expert viewing behavior that is tacit and experience-based, not
written in textbooks or online, and therefore absent from large language model
training. We introduce the AI Session Recorder, which works with standard WSI
viewers to unobtrusively record routine navigation and convert the viewer logs
into standardized behavioral commands (inspect or peek at discrete
magnifications) and bounding boxes. A lightweight human-in-the-loop review
turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired
"where to look" and "why it matters" supervision produced at roughly six times
lower labeling time. Using this behavioral data, we build Pathologist-o3, a
two-stage agent that first proposes regions of interest and then performs
behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection,
it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the
state-of-the-art OpenAI o3 model and generalizing across backbones. To our
knowledge, this constitutes one of the first behavior-grounded agentic systems
in pathology. Turning everyday viewer logs into scalable, expert-validated
supervision, our framework makes agentic pathology practical and establishes a
path to human-aligned, upgradeable clinical AI.