Pathology-CoT: Apprendimento di un Agente a Catena di Pensiero Visivo dal Comportamento Diagnostico su Immagini di Interi Vetrini da Esperti

Abstract

La diagnosi di un'immagine a tutto vetrino è un processo interattivo e multi-stadio che coinvolge cambiamenti di ingrandimento e movimenti tra i campi. Sebbene i recenti modelli di base per la patologia siano robusti, mancano ancora sistemi agentici pratici che decidano quale campo esaminare successivamente, regolino l'ingrandimento e forniscano diagnosi spiegabili. L'ostacolo principale è rappresentato dai dati: una supervisione scalabile e clinicamente allineata del comportamento di osservazione degli esperti, che è tacito e basato sull'esperienza, non scritto nei libri di testo o online, e quindi assente dall'addestramento dei grandi modelli linguistici. Introduciamo l'AI Session Recorder, che lavora con i visualizzatori standard di WSI per registrare in modo non invasivo la navigazione di routine e convertire i log di visualizzazione in comandi comportamentali standardizzati (ispezionare o dare un'occhiata a ingrandimenti discreti) e bounding box. Una revisione leggera con l'uomo nel ciclo trasforma le motivazioni abbozzate dall'IA nel dataset Pathology-CoT, una forma di supervisione accoppiata "dove guardare" e "perché è importante" prodotta con un tempo di etichettatura circa sei volte inferiore. Utilizzando questi dati comportamentali, costruiamo Pathologist-o3, un agente a due stadi che prima propone regioni di interesse e poi esegue un ragionamento guidato dal comportamento. Nel rilevamento delle metastasi linfonodali gastrointestinali, ha raggiunto una precisione dell'84,5%, un richiamo del 100,0% e un'accuratezza del 75,4%, superando il modello OpenAI o3 all'avanguardia e generalizzando su diverse architetture. A nostra conoscenza, questo costituisce uno dei primi sistemi agentici basati sul comportamento in patologia. Trasformando i log di visualizzazione quotidiani in una supervisione scalabile e validata da esperti, il nostro framework rende pratica l'IA agentica in patologia e stabilisce un percorso verso un'IA clinica allineata all'uomo e aggiornabile.

English

Diagnosing a whole-slide image is an interactive, multi-stage process involving changes in magnification and movement between fields. Although recent pathology foundation models are strong, practical agentic systems that decide what field to examine next, adjust magnification, and deliver explainable diagnoses are still lacking. The blocker is data: scalable, clinically aligned supervision of expert viewing behavior that is tacit and experience-based, not written in textbooks or online, and therefore absent from large language model training. We introduce the AI Session Recorder, which works with standard WSI viewers to unobtrusively record routine navigation and convert the viewer logs into standardized behavioral commands (inspect or peek at discrete magnifications) and bounding boxes. A lightweight human-in-the-loop review turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired "where to look" and "why it matters" supervision produced at roughly six times lower labeling time. Using this behavioral data, we build Pathologist-o3, a two-stage agent that first proposes regions of interest and then performs behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection, it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the state-of-the-art OpenAI o3 model and generalizing across backbones. To our knowledge, this constitutes one of the first behavior-grounded agentic systems in pathology. Turning everyday viewer logs into scalable, expert-validated supervision, our framework makes agentic pathology practical and establishes a path to human-aligned, upgradeable clinical AI.

Pathology-CoT: Apprendimento di un Agente a Catena di Pensiero Visivo dal Comportamento Diagnostico su Immagini di Interi Vetrini da Esperti

Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior

Abstract

Support