Pathology-CoT: Het leren van een visuele keten-van-gedachten-agent van expertgedrag bij het diagnosticeren van volledige dia-afbeeldingen
Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior
October 6, 2025
Auteurs: Sheng Wang, Ruiming Wu, Charles Herndon, Yihang Liu, Shunsuke Koga, Jeanne Shen, Zhi Huang
cs.AI
Samenvatting
Het diagnosticeren van een whole-slide image is een interactief, meerfasig proces waarbij veranderingen in vergroting en beweging tussen velden betrokken zijn. Hoewel recente pathologie foundation models sterk zijn, ontbreken er nog praktische agentische systemen die beslissen welk veld vervolgens moet worden onderzocht, de vergroting aanpassen en uitlegbare diagnoses leveren. Het struikelblok is data: schaalbare, klinisch afgestemde supervisie van expertkijkgedrag dat impliciet en ervaringsgebonden is, niet in tekstboeken of online staat beschreven, en daarom afwezig is in de training van grote taalmodellen. We introduceren de AI Session Recorder, die samenwerkt met standaard WSI-viewers om routinematige navigatie onopvallend vast te leggen en de viewerlogs om te zetten in gestandaardiseerde gedragscommando's (inspecteren of gluren bij discrete vergrotingen) en begrenzingsvakken. Een lichtgewicht human-in-the-loop review zet AI-opgestelde redeneringen om in de Pathology-CoT dataset, een vorm van gepaarde supervisie "waar te kijken" en "waarom het ertoe doet" die met ongeveer zes keer minder labeltijd wordt geproduceerd. Met deze gedragsdata bouwen we Pathologist-o3, een tweefasen agent die eerst regio's van belang voorstelt en vervolgens gedragsgestuurde redeneringen uitvoert. Bij de detectie van gastro-intestinale lymfekliermetastasen behaalde het 84,5% precisie, 100,0% recall en 75,4% nauwkeurigheid, waarmee het het state-of-the-art OpenAI o3 model overtrof en generaliseerde over verschillende backbones. Voor zover wij weten, is dit een van de eerste gedragsgebaseerde agentische systemen in de pathologie. Door alledaagse viewerlogs om te zetten in schaalbare, expert-gevalideerde supervisie, maakt ons framework agentische pathologie praktisch en legt het een weg naar mensgericht, upgradebaar klinisch AI.
English
Diagnosing a whole-slide image is an interactive, multi-stage process
involving changes in magnification and movement between fields. Although recent
pathology foundation models are strong, practical agentic systems that decide
what field to examine next, adjust magnification, and deliver explainable
diagnoses are still lacking. The blocker is data: scalable, clinically aligned
supervision of expert viewing behavior that is tacit and experience-based, not
written in textbooks or online, and therefore absent from large language model
training. We introduce the AI Session Recorder, which works with standard WSI
viewers to unobtrusively record routine navigation and convert the viewer logs
into standardized behavioral commands (inspect or peek at discrete
magnifications) and bounding boxes. A lightweight human-in-the-loop review
turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired
"where to look" and "why it matters" supervision produced at roughly six times
lower labeling time. Using this behavioral data, we build Pathologist-o3, a
two-stage agent that first proposes regions of interest and then performs
behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection,
it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the
state-of-the-art OpenAI o3 model and generalizing across backbones. To our
knowledge, this constitutes one of the first behavior-grounded agentic systems
in pathology. Turning everyday viewer logs into scalable, expert-validated
supervision, our framework makes agentic pathology practical and establishes a
path to human-aligned, upgradeable clinical AI.