MedVista3D: Modellazione Visione-Linguaggio per Ridurre gli Errori Diagnostici nel Rilevamento, Comprensione e Reporting delle Malattie tramite TC 3D
MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting
September 4, 2025
Autori: Yuheng Li, Yenho Chen, Yuxiang Lai, Jike Zhong, Vanessa Wildman, Xiaofeng Yang
cs.AI
Abstract
Gli errori diagnostici radiologici - errori di sottovalutazione, cecità attentiva e fallimenti nella comunicazione - rimangono prevalenti nella pratica clinica. Questi problemi spesso derivano da anomalie localizzate mancate, contesto globale limitato e variabilità nel linguaggio dei referti. Queste sfide sono amplificate nell'imaging 3D, dove i clinici devono esaminare centinaia di sezioni per scansione. Affrontarle richiede sistemi con rilevamento localizzato preciso, ragionamento a livello di volume globale e refertazione in linguaggio naturale semanticamente coerente. Tuttavia, i modelli visione-linguaggio 3D esistenti non sono in grado di soddisfare congiuntamente tutte e tre le esigenze, mancando di comprensione locale-globale per il ragionamento spaziale e lottando con la variabilità e il rumore dei referti radiologici non curati. Presentiamo MedVista3D, un framework di pre-addestramento visione-linguaggio arricchito semanticamente su più scale per l'analisi di TC 3D. Per abilitare il rilevamento congiunto delle patologie e l'interpretazione olistica, MedVista3D esegue l'allineamento locale e globale immagine-testo per l'apprendimento di rappresentazioni granulari nel contesto del volume completo. Per affrontare la variabilità dei referti, applichiamo riscritture con modelli linguistici e introduciamo una Banca di Corrispondenza Semantica Radiologica per l'allineamento consapevole della semantica. MedVista3D raggiunge prestazioni all'avanguardia nella classificazione zero-shot delle patologie, nel recupero dei referti e nella risposta a domande visive mediche, trasferendosi bene anche alla segmentazione degli organi e alla previsione della prognosi. Codice e dataset verranno rilasciati.
English
Radiologic diagnostic errors-under-reading errors, inattentional blindness,
and communication failures-remain prevalent in clinical practice. These issues
often stem from missed localized abnormalities, limited global context, and
variability in report language. These challenges are amplified in 3D imaging,
where clinicians must examine hundreds of slices per scan. Addressing them
requires systems with precise localized detection, global volume-level
reasoning, and semantically consistent natural language reporting. However,
existing 3D vision-language models are unable to meet all three needs jointly,
lacking local-global understanding for spatial reasoning and struggling with
the variability and noise of uncurated radiology reports. We present
MedVista3D, a multi-scale semantic-enriched vision-language pretraining
framework for 3D CT analysis. To enable joint disease detection and holistic
interpretation, MedVista3D performs local and global image-text alignment for
fine-grained representation learning within full-volume context. To address
report variability, we apply language model rewrites and introduce a Radiology
Semantic Matching Bank for semantics-aware alignment. MedVista3D achieves
state-of-the-art performance on zero-shot disease classification, report
retrieval, and medical visual question answering, while transferring well to
organ segmentation and prognosis prediction. Code and datasets will be
released.