ChatPaper.aiChatPaper

MedVista3D : Modélisation vision-langage pour réduire les erreurs de diagnostic dans la détection, la compréhension et le rapport des maladies par tomodensitométrie 3D

MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting

September 4, 2025
papers.authors: Yuheng Li, Yenho Chen, Yuxiang Lai, Jike Zhong, Vanessa Wildman, Xiaofeng Yang
cs.AI

papers.abstract

Les erreurs de diagnostic radiologique - sous-lecture, cécité attentionnelle et échecs de communication - restent prévalentes dans la pratique clinique. Ces problèmes découlent souvent d'anomalies localisées manquées, d'un contexte global limité et de la variabilité du langage des rapports. Ces défis sont amplifiés dans l'imagerie 3D, où les cliniciens doivent examiner des centaines de coupes par scan. Leur résolution nécessite des systèmes dotés d'une détection localisée précise, d'un raisonnement global au niveau du volume et d'un rapport en langage naturel sémantiquement cohérent. Cependant, les modèles vision-langage 3D existants ne parviennent pas à répondre conjointement à ces trois besoins, manquant de compréhension locale-globale pour le raisonnement spatial et peinant face à la variabilité et au bruit des rapports radiologiques non curés. Nous présentons MedVista3D, un cadre de pré-entraînement vision-langage enrichi sémantiquement à multi-échelles pour l'analyse de CT 3D. Pour permettre une détection conjointe des maladies et une interprétation holistique, MedVista3D réalise un alignement local et global image-texte pour un apprentissage de représentations à granularité fine dans le contexte du volume complet. Pour traiter la variabilité des rapports, nous appliquons des réécritures par modèle de langage et introduisons une Banque d'Appariement Sémantique Radiologique pour un alignement conscient de la sémantique. MedVista3D atteint des performances de pointe en classification de maladies à zéro-shot, récupération de rapports et réponse à des questions visuelles médicales, tout en transférant efficacement à la segmentation d'organes et à la prédiction de pronostic. Le code et les jeux de données seront publiés.
English
Radiologic diagnostic errors-under-reading errors, inattentional blindness, and communication failures-remain prevalent in clinical practice. These issues often stem from missed localized abnormalities, limited global context, and variability in report language. These challenges are amplified in 3D imaging, where clinicians must examine hundreds of slices per scan. Addressing them requires systems with precise localized detection, global volume-level reasoning, and semantically consistent natural language reporting. However, existing 3D vision-language models are unable to meet all three needs jointly, lacking local-global understanding for spatial reasoning and struggling with the variability and noise of uncurated radiology reports. We present MedVista3D, a multi-scale semantic-enriched vision-language pretraining framework for 3D CT analysis. To enable joint disease detection and holistic interpretation, MedVista3D performs local and global image-text alignment for fine-grained representation learning within full-volume context. To address report variability, we apply language model rewrites and introduce a Radiology Semantic Matching Bank for semantics-aware alignment. MedVista3D achieves state-of-the-art performance on zero-shot disease classification, report retrieval, and medical visual question answering, while transferring well to organ segmentation and prognosis prediction. Code and datasets will be released.
PDF32September 8, 2025