MedVista3D: Modelagem Visão-Linguagem para Redução de Erros Diagnósticos na Detecção, Compreensão e Relato de Doenças em Tomografias 3D

Resumo

Erros de diagnóstico radiológico - erros de subleitura, cegueira por desatenção e falhas de comunicação - permanecem prevalentes na prática clínica. Esses problemas frequentemente decorrem de anormalidades localizadas não detectadas, contexto global limitado e variabilidade na linguagem dos relatórios. Esses desafios são amplificados na imagem 3D, onde os clínicos devem examinar centenas de cortes por exame. Para abordá-los, são necessários sistemas com detecção localizada precisa, raciocínio em nível de volume global e relatórios em linguagem natural semanticamente consistentes. No entanto, os modelos visão-linguagem 3D existentes não conseguem atender a todas as três necessidades em conjunto, carecendo de compreensão local-global para raciocínio espacial e lutando com a variabilidade e o ruído dos relatórios radiológicos não curados. Apresentamos o MedVista3D, uma estrutura de pré-treinamento visão-linguagem enriquecida semanticamente em múltiplas escalas para análise de TC 3D. Para permitir a detecção conjunta de doenças e interpretação holística, o MedVista3D realiza alinhamento local e global de imagem-texto para aprendizado de representação refinada dentro do contexto de volume completo. Para lidar com a variabilidade dos relatórios, aplicamos reescritas de modelos de linguagem e introduzimos um Banco de Correspondência Semântica Radiológica para alinhamento consciente da semântica. O MedVista3D alcança desempenho de ponta em classificação de doenças zero-shot, recuperação de relatórios e resposta a perguntas visuais médicas, enquanto se transfere bem para segmentação de órgãos e previsão de prognóstico. Códigos e conjuntos de dados serão liberados.

English

Radiologic diagnostic errors-under-reading errors, inattentional blindness, and communication failures-remain prevalent in clinical practice. These issues often stem from missed localized abnormalities, limited global context, and variability in report language. These challenges are amplified in 3D imaging, where clinicians must examine hundreds of slices per scan. Addressing them requires systems with precise localized detection, global volume-level reasoning, and semantically consistent natural language reporting. However, existing 3D vision-language models are unable to meet all three needs jointly, lacking local-global understanding for spatial reasoning and struggling with the variability and noise of uncurated radiology reports. We present MedVista3D, a multi-scale semantic-enriched vision-language pretraining framework for 3D CT analysis. To enable joint disease detection and holistic interpretation, MedVista3D performs local and global image-text alignment for fine-grained representation learning within full-volume context. To address report variability, we apply language model rewrites and introduce a Radiology Semantic Matching Bank for semantics-aware alignment. MedVista3D achieves state-of-the-art performance on zero-shot disease classification, report retrieval, and medical visual question answering, while transferring well to organ segmentation and prognosis prediction. Code and datasets will be released.

MedVista3D: Modelagem Visão-Linguagem para Redução de Erros Diagnósticos na Detecção, Compreensão e Relato de Doenças em Tomografias 3D

MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting

Resumo

Support