ChatPaper.aiChatPaper

Pathology-CoT: Aprendizaje de un Agente Visual de Cadena de Pensamiento a partir del Comportamiento de Diagnóstico en Imágenes de Patología Completa

Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior

October 6, 2025
Autores: Sheng Wang, Ruiming Wu, Charles Herndon, Yihang Liu, Shunsuke Koga, Jeanne Shen, Zhi Huang
cs.AI

Resumen

El diagnóstico de una imagen de muestra completa es un proceso interactivo y de múltiples etapas que implica cambios en el aumento y movimiento entre campos. Aunque los modelos fundamentales recientes en patología son sólidos, aún faltan sistemas agentes prácticos que decidan qué campo examinar a continuación, ajusten el aumento y entreguen diagnósticos explicables. El obstáculo son los datos: una supervisión escalable y clínicamente alineada del comportamiento de visualización de expertos que es tácita y basada en la experiencia, no escrita en libros de texto o en línea, y por lo tanto ausente en el entrenamiento de modelos de lenguaje grandes. Presentamos el AI Session Recorder, que funciona con visores estándar de WSI para registrar de manera discreta la navegación rutinaria y convertir los registros del visor en comandos conductuales estandarizados (inspeccionar o echar un vistazo a aumentos discretos) y cuadros delimitadores. Una revisión ligera con intervención humana convierte las justificaciones redactadas por la IA en el conjunto de datos Pathology-CoT, una forma de supervisión emparejada de "dónde mirar" y "por qué importa" producida en aproximadamente seis veces menos tiempo de etiquetado. Utilizando estos datos conductuales, construimos Pathologist-o3, un agente de dos etapas que primero propone regiones de interés y luego realiza un razonamiento guiado por el comportamiento. En la detección de metástasis en ganglios linfáticos gastrointestinales, logró un 84.5% de precisión, un 100.0% de sensibilidad y un 75.4% de exactitud, superando al modelo OpenAI o3 de última generación y generalizando entre diferentes arquitecturas. Hasta donde sabemos, esto constituye uno de los primeros sistemas agentes en patología fundamentados en el comportamiento. Al convertir los registros diarios de visualización en una supervisión escalable y validada por expertos, nuestro marco hace que los agentes en patología sean prácticos y establece un camino hacia una IA clínica alineada con los humanos y actualizable.
English
Diagnosing a whole-slide image is an interactive, multi-stage process involving changes in magnification and movement between fields. Although recent pathology foundation models are strong, practical agentic systems that decide what field to examine next, adjust magnification, and deliver explainable diagnoses are still lacking. The blocker is data: scalable, clinically aligned supervision of expert viewing behavior that is tacit and experience-based, not written in textbooks or online, and therefore absent from large language model training. We introduce the AI Session Recorder, which works with standard WSI viewers to unobtrusively record routine navigation and convert the viewer logs into standardized behavioral commands (inspect or peek at discrete magnifications) and bounding boxes. A lightweight human-in-the-loop review turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired "where to look" and "why it matters" supervision produced at roughly six times lower labeling time. Using this behavioral data, we build Pathologist-o3, a two-stage agent that first proposes regions of interest and then performs behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection, it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the state-of-the-art OpenAI o3 model and generalizing across backbones. To our knowledge, this constitutes one of the first behavior-grounded agentic systems in pathology. Turning everyday viewer logs into scalable, expert-validated supervision, our framework makes agentic pathology practical and establishes a path to human-aligned, upgradeable clinical AI.
PDF12October 14, 2025