Pathology-CoT: Lernen eines visuellen Chain-of-Thought-Agenten aus dem Expertendiagnoseverhalten von Ganzbild-Slides
Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior
October 6, 2025
papers.authors: Sheng Wang, Ruiming Wu, Charles Herndon, Yihang Liu, Shunsuke Koga, Jeanne Shen, Zhi Huang
cs.AI
papers.abstract
Die Diagnose eines Ganz-Schnitten-Bildes ist ein interaktiver, mehrstufiger Prozess, der Veränderungen in der Vergrößerung und Bewegungen zwischen verschiedenen Bildbereichen beinhaltet. Obwohl aktuelle Pathologie-Foundation-Modelle leistungsstark sind, fehlen praktische agentenbasierte Systeme, die entscheiden, welchen Bereich als Nächstes untersucht werden soll, die Vergrößerung anpassen und erklärbare Diagnosen liefern. Der Engpass sind die Daten: skalierbare, klinisch ausgerichtete Überwachung des Expertenverhaltens, das implizit und erfahrungsbasiert ist, nicht in Lehrbüchern oder online dokumentiert wird und daher in großen Sprachmodelltrainings fehlt. Wir stellen den AI Session Recorder vor, der mit Standard-WSI-Betrachtern zusammenarbeitet, um routinemäßige Navigation unauffällig aufzuzeichnen und die Betrachterprotokolle in standardisierte Verhaltensbefehle (untersuchen oder kurz ansehen bei diskreten Vergrößerungen) und Begrenzungsrahmen umzuwandeln. Eine leichtgewichtige menschliche Überprüfung verwandelt die von der KI erstellten Begründungen in den Pathology-CoT-Datensatz, eine Form von gepaarter „wohin schauen“ und „warum es wichtig ist“-Überwachung, die mit etwa sechsmal geringerem Labeling-Aufwand erstellt wird. Mit diesen Verhaltensdaten bauen wir Pathologist-o3, einen zweistufigen Agenten, der zunächst Regionen von Interesse vorschlägt und dann verhaltensgesteuertes Reasoning durchführt. Bei der Detektion von gastrointestinalen Lymphknotenmetastasen erreichte er eine Präzision von 84,5 %, einen Recall von 100,0 % und eine Genauigkeit von 75,4 %, womit er das state-of-the-art OpenAI o3-Modell übertraf und sich über verschiedene Backbones hinweg verallgemeinern ließ. Unseres Wissens stellt dies eines der ersten verhaltensbasierten agentenbasierten Systeme in der Pathologie dar. Indem wir alltägliche Betrachterprotokolle in skalierbare, von Experten validierte Überwachung umwandeln, macht unser Framework agentenbasierte Pathologie praktikabel und ebnet den Weg für menschlich ausgerichtete, aufrüstbare klinische KI.
English
Diagnosing a whole-slide image is an interactive, multi-stage process
involving changes in magnification and movement between fields. Although recent
pathology foundation models are strong, practical agentic systems that decide
what field to examine next, adjust magnification, and deliver explainable
diagnoses are still lacking. The blocker is data: scalable, clinically aligned
supervision of expert viewing behavior that is tacit and experience-based, not
written in textbooks or online, and therefore absent from large language model
training. We introduce the AI Session Recorder, which works with standard WSI
viewers to unobtrusively record routine navigation and convert the viewer logs
into standardized behavioral commands (inspect or peek at discrete
magnifications) and bounding boxes. A lightweight human-in-the-loop review
turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired
"where to look" and "why it matters" supervision produced at roughly six times
lower labeling time. Using this behavioral data, we build Pathologist-o3, a
two-stage agent that first proposes regions of interest and then performs
behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection,
it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the
state-of-the-art OpenAI o3 model and generalizing across backbones. To our
knowledge, this constitutes one of the first behavior-grounded agentic systems
in pathology. Turning everyday viewer logs into scalable, expert-validated
supervision, our framework makes agentic pathology practical and establishes a
path to human-aligned, upgradeable clinical AI.