CheXWorld: Erforschung der Bildweltmodellierung für die Darstellung von Röntgenaufnahmen
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning
April 18, 2025
Autoren: Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
cs.AI
Zusammenfassung
Menschen können interne Weltmodelle entwickeln, die Alltagswissen kodieren und ihnen vermitteln, wie die Welt funktioniert, sowie die Konsequenzen ihrer Handlungen vorhersagen. Dieses Konzept hat sich in jüngsten Vorarbeiten als vielversprechende Richtung für die Entwicklung allgemeiner maschineller Lernmodelle erwiesen, beispielsweise für das Lernen visueller Repräsentationen. In diesem Artikel präsentieren wir CheXWorld, den ersten Ansatz für ein selbstüberwachtes Weltmodell für radiografische Bilder. Konkret entwickelt unsere Arbeit ein einheitliches Framework, das gleichzeitig drei Aspekte medizinischen Wissens modelliert, die für qualifizierte Radiologen essenziell sind: 1) lokale anatomische Strukturen, die die feingranularen Merkmale lokaler Gewebe beschreiben (z. B. Architekturen, Formen und Texturen); 2) globale anatomische Anordnungen, die die globale Organisation des menschlichen Körpers beschreiben (z. B. Anordnungen von Organen und Skelett); und 3) Domänenvariationen, die CheXWorld dazu anregen, die Übergänge zwischen verschiedenen Erscheinungsdomänen von Röntgenbildern zu modellieren (z. B. unterschiedliche Schärfe, Kontrast und Belichtung, die durch die Erfassung von Röntgenbildern in verschiedenen Krankenhäusern, mit verschiedenen Geräten oder von verschiedenen Patienten verursacht werden). Empirisch entwerfen wir maßgeschneiderte qualitative und quantitative Analysen, die zeigen, dass CheXWorld diese drei Dimensionen medizinischen Wissens erfolgreich erfasst. Darüber hinaus demonstrieren Transferlern-Experimente über acht Benchmarks für die Klassifikation und Segmentierung medizinischer Bilder, dass CheXWorld bestehende SSL-Methoden und großskalige medizinische Basismodelle deutlich übertrifft. Code und vortrainierte Modelle sind unter https://github.com/LeapLabTHU/CheXWorld verfügbar.
English
Humans can develop internal world models that encode common sense knowledge,
telling them how the world works and predicting the consequences of their
actions. This concept has emerged as a promising direction for establishing
general-purpose machine-learning models in recent preliminary works, e.g., for
visual representation learning. In this paper, we present CheXWorld, the first
effort towards a self-supervised world model for radiographic images.
Specifically, our work develops a unified framework that simultaneously models
three aspects of medical knowledge essential for qualified radiologists,
including 1) local anatomical structures describing the fine-grained
characteristics of local tissues (e.g., architectures, shapes, and textures);
2) global anatomical layouts describing the global organization of the human
body (e.g., layouts of organs and skeletons); and 3) domain variations that
encourage CheXWorld to model the transitions across different appearance
domains of radiographs (e.g., varying clarity, contrast, and exposure caused by
collecting radiographs from different hospitals, devices, or patients).
Empirically, we design tailored qualitative and quantitative analyses,
revealing that CheXWorld successfully captures these three dimensions of
medical knowledge. Furthermore, transfer learning experiments across eight
medical image classification and segmentation benchmarks showcase that
CheXWorld significantly outperforms existing SSL methods and large-scale
medical foundation models. Code & pre-trained models are available at
https://github.com/LeapLabTHU/CheXWorld.Summary
AI-Generated Summary