ChatPaper.aiChatPaper

Pathology-CoT: Aprendendo um Agente de Cadeia de Pensamento Visual a partir do Comportamento de Diagnóstico em Imagens de Lâminas Inteiras por Especialistas

Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior

October 6, 2025
Autores: Sheng Wang, Ruiming Wu, Charles Herndon, Yihang Liu, Shunsuke Koga, Jeanne Shen, Zhi Huang
cs.AI

Resumo

O diagnóstico de uma imagem de lâmina completa é um processo interativo e multifásico que envolve mudanças de ampliação e movimentação entre campos. Embora os modelos fundamentais recentes de patologia sejam robustos, ainda faltam sistemas agentes práticos que decidam qual campo examinar a seguir, ajustem a ampliação e forneçam diagnósticos explicáveis. O obstáculo são os dados: supervisão escalável e clinicamente alinhada do comportamento de visualização de especialistas, que é tácita e baseada em experiência, não escrita em livros didáticos ou online e, portanto, ausente do treinamento de grandes modelos de linguagem. Apresentamos o AI Session Recorder, que funciona com visualizadores padrão de WSI para registrar de forma discreta a navegação rotineira e converter os logs de visualização em comandos comportamentais padronizados (inspecionar ou espiar em ampliações discretas) e caixas delimitadoras. Uma revisão leve com humano no loop transforma as justificativas elaboradas pela IA no conjunto de dados Pathology-CoT, uma forma de supervisão pareada de "onde olhar" e "por que importa" produzida com um tempo de rotulagem aproximadamente seis vezes menor. Usando esses dados comportamentais, construímos o Pathologist-o3, um agente de dois estágios que primeiro propõe regiões de interesse e depois realiza raciocínio guiado por comportamento. Na detecção de metástase em linfonodos gastrointestinais, ele alcançou 84,5% de precisão, 100,0% de recall e 75,4% de acurácia, superando o modelo OpenAI o3 state-of-the-art e generalizando entre backbones. Até onde sabemos, este constitui um dos primeiros sistemas agentes fundamentados em comportamento na patologia. Transformando logs de visualização cotidianos em supervisão escalável e validada por especialistas, nosso framework torna a patologia agentica prática e estabelece um caminho para IA clínica alinhada com humanos e passível de atualização.
English
Diagnosing a whole-slide image is an interactive, multi-stage process involving changes in magnification and movement between fields. Although recent pathology foundation models are strong, practical agentic systems that decide what field to examine next, adjust magnification, and deliver explainable diagnoses are still lacking. The blocker is data: scalable, clinically aligned supervision of expert viewing behavior that is tacit and experience-based, not written in textbooks or online, and therefore absent from large language model training. We introduce the AI Session Recorder, which works with standard WSI viewers to unobtrusively record routine navigation and convert the viewer logs into standardized behavioral commands (inspect or peek at discrete magnifications) and bounding boxes. A lightweight human-in-the-loop review turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired "where to look" and "why it matters" supervision produced at roughly six times lower labeling time. Using this behavioral data, we build Pathologist-o3, a two-stage agent that first proposes regions of interest and then performs behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection, it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the state-of-the-art OpenAI o3 model and generalizing across backbones. To our knowledge, this constitutes one of the first behavior-grounded agentic systems in pathology. Turning everyday viewer logs into scalable, expert-validated supervision, our framework makes agentic pathology practical and establishes a path to human-aligned, upgradeable clinical AI.
PDF12October 14, 2025