Pathology-CoT : Apprentissage d'un agent visuel de chaîne de pensée à partir du comportement de diagnostic d'images de lames par des experts
Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior
October 6, 2025
papers.authors: Sheng Wang, Ruiming Wu, Charles Herndon, Yihang Liu, Shunsuke Koga, Jeanne Shen, Zhi Huang
cs.AI
papers.abstract
Le diagnostic d'une image de lame entière est un processus interactif et multi-étapes impliquant des changements de grossissement et des déplacements entre différents champs. Bien que les modèles de base récents en pathologie soient performants, les systèmes agentiques pratiques qui décident quel champ examiner ensuite, ajustent le grossissement et fournissent des diagnostics explicables font encore défaut. Le frein principal est la donnée : une supervision scalable et alignée sur la pratique clinique du comportement de visualisation des experts, qui est tacite et basée sur l'expérience, non écrite dans les manuels ou en ligne, et donc absente de l'entraînement des grands modèles de langage. Nous présentons l'AI Session Recorder, qui fonctionne avec les visionneuses standard d'images de lame entière (WSI) pour enregistrer de manière non intrusive la navigation routinière et convertir les logs de visualisation en commandes comportementales standardisées (inspecter ou jeter un coup d'œil à des grossissements discrets) et en boîtes englobantes. Une revue légère avec intervention humaine transforme les justifications rédigées par l'IA en le jeu de données Pathology-CoT, une forme de supervision jumelée "où regarder" et "pourquoi c'est important" produite avec un temps d'étiquetage environ six fois inférieur. En utilisant ces données comportementales, nous construisons Pathologist-o3, un agent à deux étapes qui propose d'abord des régions d'intérêt puis effectue un raisonnement guidé par le comportement. Sur la détection de métastases ganglionnaires gastro-intestinales, il a atteint 84,5 % de précision, 100,0 % de rappel et 75,4 % de précision, surpassant le modèle OpenAI o3 de pointe et se généralisant à différentes architectures. À notre connaissance, cela constitue l'un des premiers systèmes agentiques en pathologie ancrés dans le comportement. En transformant les logs de visualisation quotidiens en une supervision scalable et validée par des experts, notre cadre rend la pathologie agentique pratique et établit une voie vers une IA clinique alignée sur l'humain et évolutive.
English
Diagnosing a whole-slide image is an interactive, multi-stage process
involving changes in magnification and movement between fields. Although recent
pathology foundation models are strong, practical agentic systems that decide
what field to examine next, adjust magnification, and deliver explainable
diagnoses are still lacking. The blocker is data: scalable, clinically aligned
supervision of expert viewing behavior that is tacit and experience-based, not
written in textbooks or online, and therefore absent from large language model
training. We introduce the AI Session Recorder, which works with standard WSI
viewers to unobtrusively record routine navigation and convert the viewer logs
into standardized behavioral commands (inspect or peek at discrete
magnifications) and bounding boxes. A lightweight human-in-the-loop review
turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired
"where to look" and "why it matters" supervision produced at roughly six times
lower labeling time. Using this behavioral data, we build Pathologist-o3, a
two-stage agent that first proposes regions of interest and then performs
behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection,
it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the
state-of-the-art OpenAI o3 model and generalizing across backbones. To our
knowledge, this constitutes one of the first behavior-grounded agentic systems
in pathology. Turning everyday viewer logs into scalable, expert-validated
supervision, our framework makes agentic pathology practical and establishes a
path to human-aligned, upgradeable clinical AI.