ChatPaper.aiChatPaper

MedVista3D: Modelado Visión-Lenguaje para Reducir Errores Diagnósticos en la Detección, Comprensión y Reporte de Enfermedades en Tomografías Computarizadas 3D

MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting

September 4, 2025
Autores: Yuheng Li, Yenho Chen, Yuxiang Lai, Jike Zhong, Vanessa Wildman, Xiaofeng Yang
cs.AI

Resumen

Los errores diagnósticos radiológicos—errores de sublectura, ceguera por falta de atención y fallos en la comunicación—siguen siendo prevalentes en la práctica clínica. Estos problemas a menudo se originan por la omisión de anomalías localizadas, un contexto global limitado y la variabilidad en el lenguaje de los informes. Estos desafíos se amplifican en la imagenología 3D, donde los clínicos deben examinar cientos de cortes por escaneo. Para abordarlos, se requieren sistemas con detección localizada precisa, razonamiento a nivel de volumen global e informes en lenguaje natural semánticamente consistentes. Sin embargo, los modelos existentes de visión-lenguaje en 3D no pueden satisfacer estas tres necesidades de manera conjunta, careciendo de una comprensión local-global para el razonamiento espacial y enfrentando dificultades con la variabilidad y el ruido de los informes radiológicos no curados. Presentamos MedVista3D, un marco de preentrenamiento de visión-lenguaje enriquecido semánticamente a múltiples escalas para el análisis de tomografías computarizadas 3D. Para permitir la detección conjunta de enfermedades y una interpretación holística, MedVista3D realiza una alineación local y global de imagen-texto para el aprendizaje de representaciones de grano fino dentro del contexto de volumen completo. Para abordar la variabilidad de los informes, aplicamos reescrituras con modelos de lenguaje e introducimos un Banco de Coincidencia Semántica Radiológica para una alineación consciente de la semántica. MedVista3D logra un rendimiento de vanguardia en la clasificación de enfermedades en modo zero-shot, recuperación de informes y respuesta a preguntas visuales médicas, mientras se transfiere eficazmente a la segmentación de órganos y la predicción de pronósticos. Se liberarán el código y los conjuntos de datos.
English
Radiologic diagnostic errors-under-reading errors, inattentional blindness, and communication failures-remain prevalent in clinical practice. These issues often stem from missed localized abnormalities, limited global context, and variability in report language. These challenges are amplified in 3D imaging, where clinicians must examine hundreds of slices per scan. Addressing them requires systems with precise localized detection, global volume-level reasoning, and semantically consistent natural language reporting. However, existing 3D vision-language models are unable to meet all three needs jointly, lacking local-global understanding for spatial reasoning and struggling with the variability and noise of uncurated radiology reports. We present MedVista3D, a multi-scale semantic-enriched vision-language pretraining framework for 3D CT analysis. To enable joint disease detection and holistic interpretation, MedVista3D performs local and global image-text alignment for fine-grained representation learning within full-volume context. To address report variability, we apply language model rewrites and introduce a Radiology Semantic Matching Bank for semantics-aware alignment. MedVista3D achieves state-of-the-art performance on zero-shot disease classification, report retrieval, and medical visual question answering, while transferring well to organ segmentation and prognosis prediction. Code and datasets will be released.
PDF32September 8, 2025