MedVista3D: Modelagem Visão-Linguagem para Redução de Erros Diagnósticos na Detecção, Compreensão e Relato de Doenças em Tomografias 3D
MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting
September 4, 2025
Autores: Yuheng Li, Yenho Chen, Yuxiang Lai, Jike Zhong, Vanessa Wildman, Xiaofeng Yang
cs.AI
Resumo
Erros de diagnóstico radiológico - erros de subleitura, cegueira por desatenção e falhas de comunicação - permanecem prevalentes na prática clínica. Esses problemas frequentemente decorrem de anormalidades localizadas não detectadas, contexto global limitado e variabilidade na linguagem dos relatórios. Esses desafios são amplificados na imagem 3D, onde os clínicos devem examinar centenas de cortes por exame. Para abordá-los, são necessários sistemas com detecção localizada precisa, raciocínio em nível de volume global e relatórios em linguagem natural semanticamente consistentes. No entanto, os modelos visão-linguagem 3D existentes não conseguem atender a todas as três necessidades em conjunto, carecendo de compreensão local-global para raciocínio espacial e lutando com a variabilidade e o ruído dos relatórios radiológicos não curados. Apresentamos o MedVista3D, uma estrutura de pré-treinamento visão-linguagem enriquecida semanticamente em múltiplas escalas para análise de TC 3D. Para permitir a detecção conjunta de doenças e interpretação holística, o MedVista3D realiza alinhamento local e global de imagem-texto para aprendizado de representação refinada dentro do contexto de volume completo. Para lidar com a variabilidade dos relatórios, aplicamos reescritas de modelos de linguagem e introduzimos um Banco de Correspondência Semântica Radiológica para alinhamento consciente da semântica. O MedVista3D alcança desempenho de ponta em classificação de doenças zero-shot, recuperação de relatórios e resposta a perguntas visuais médicas, enquanto se transfere bem para segmentação de órgãos e previsão de prognóstico. Códigos e conjuntos de dados serão liberados.
English
Radiologic diagnostic errors-under-reading errors, inattentional blindness,
and communication failures-remain prevalent in clinical practice. These issues
often stem from missed localized abnormalities, limited global context, and
variability in report language. These challenges are amplified in 3D imaging,
where clinicians must examine hundreds of slices per scan. Addressing them
requires systems with precise localized detection, global volume-level
reasoning, and semantically consistent natural language reporting. However,
existing 3D vision-language models are unable to meet all three needs jointly,
lacking local-global understanding for spatial reasoning and struggling with
the variability and noise of uncurated radiology reports. We present
MedVista3D, a multi-scale semantic-enriched vision-language pretraining
framework for 3D CT analysis. To enable joint disease detection and holistic
interpretation, MedVista3D performs local and global image-text alignment for
fine-grained representation learning within full-volume context. To address
report variability, we apply language model rewrites and introduce a Radiology
Semantic Matching Bank for semantics-aware alignment. MedVista3D achieves
state-of-the-art performance on zero-shot disease classification, report
retrieval, and medical visual question answering, while transferring well to
organ segmentation and prognosis prediction. Code and datasets will be
released.