MedVista3D: Vision-Language-Modellierung zur Reduzierung diagnostischer Fehler bei der Erkennung, Interpretation und Berichterstattung von Krankheiten in 3D-CT-Bildern
MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting
September 4, 2025
papers.authors: Yuheng Li, Yenho Chen, Yuxiang Lai, Jike Zhong, Vanessa Wildman, Xiaofeng Yang
cs.AI
papers.abstract
Radiologische Diagnosefehler – Unterlesefehler, Unaufmerksamkeitsblindheit und Kommunikationsprobleme – bleiben in der klinischen Praxis weit verbreitet. Diese Probleme resultieren häufig aus übersehenen lokalen Anomalien, begrenztem globalem Kontext und Variabilität in der Berichtssprache. Diese Herausforderungen werden in der 3D-Bildgebung noch verstärkt, wo Kliniker Hunderte von Schichten pro Scan untersuchen müssen. Um diese zu bewältigen, sind Systeme erforderlich, die eine präzise lokale Detektion, globales volumetrisches Denken und semantisch konsistente natürliche Sprachberichterstattung ermöglichen. Bisherige 3D-Vision-Language-Modelle können jedoch nicht alle drei Anforderungen gleichzeitig erfüllen, da ihnen das lokale und globale Verständnis für räumliches Denken fehlt und sie mit der Variabilität und dem Rauschen ungefilterter radiologischer Berichte kämpfen. Wir stellen MedVista3D vor, ein mehrstufiges, semantisch angereichertes Vision-Language-Pretraining-Framework für die 3D-CT-Analyse. Um eine gemeinsame Krankheitserkennung und ganzheitliche Interpretation zu ermöglichen, führt MedVista3D eine lokale und globale Bild-Text-Ausrichtung für feinkörnige Repräsentationslernprozesse im Kontext des gesamten Volumens durch. Um die Variabilität der Berichte zu bewältigen, wenden wir Sprachmodell-Rewrites an und führen eine Radiology Semantic Matching Bank für eine semantikbewusste Ausrichtung ein. MedVista3D erzielt Spitzenleistungen bei der Zero-Shot-Krankheitsklassifikation, Berichtsabfrage und medizinischen visuellen Fragebeantwortung und überträgt sich gut auf Organsegmentierung und Prognosevorhersage. Code und Datensätze werden veröffentlicht.
English
Radiologic diagnostic errors-under-reading errors, inattentional blindness,
and communication failures-remain prevalent in clinical practice. These issues
often stem from missed localized abnormalities, limited global context, and
variability in report language. These challenges are amplified in 3D imaging,
where clinicians must examine hundreds of slices per scan. Addressing them
requires systems with precise localized detection, global volume-level
reasoning, and semantically consistent natural language reporting. However,
existing 3D vision-language models are unable to meet all three needs jointly,
lacking local-global understanding for spatial reasoning and struggling with
the variability and noise of uncurated radiology reports. We present
MedVista3D, a multi-scale semantic-enriched vision-language pretraining
framework for 3D CT analysis. To enable joint disease detection and holistic
interpretation, MedVista3D performs local and global image-text alignment for
fine-grained representation learning within full-volume context. To address
report variability, we apply language model rewrites and introduce a Radiology
Semantic Matching Bank for semantics-aware alignment. MedVista3D achieves
state-of-the-art performance on zero-shot disease classification, report
retrieval, and medical visual question answering, while transferring well to
organ segmentation and prognosis prediction. Code and datasets will be
released.