CheXWorld : Exploration de la modélisation du monde d'images pour l'apprentissage de représentations de radiographies
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning
April 18, 2025
Auteurs: Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
cs.AI
Résumé
Les humains peuvent développer des modèles internes du monde qui encodent des connaissances de bon sens, leur indiquant comment le monde fonctionne et prédisant les conséquences de leurs actions. Ce concept est apparu comme une direction prometteuse pour établir des modèles d'apprentissage automatique à usage général dans des travaux préliminaires récents, par exemple pour l'apprentissage de représentations visuelles. Dans cet article, nous présentons CheXWorld, la première tentative vers un modèle du monde auto-supervisé pour les images radiographiques. Plus précisément, notre travail développe un cadre unifié qui modélise simultanément trois aspects des connaissances médicales essentielles pour des radiologues qualifiés, incluant 1) les structures anatomiques locales décrivant les caractéristiques fines des tissus locaux (par exemple, les architectures, les formes et les textures) ; 2) les dispositions anatomiques globales décrivant l'organisation globale du corps humain (par exemple, la disposition des organes et des squelettes) ; et 3) les variations de domaine qui encouragent CheXWorld à modéliser les transitions entre différents domaines d'apparence des radiographies (par exemple, la clarté, le contraste et l'exposition variables causées par la collecte de radiographies provenant de différents hôpitaux, appareils ou patients). Empiriquement, nous concevons des analyses qualitatives et quantitatives sur mesure, révélant que CheXWorld capture avec succès ces trois dimensions des connaissances médicales. De plus, des expériences de transfert d'apprentissage sur huit benchmarks de classification et de segmentation d'images médicales montrent que CheXWorld surpasse significativement les méthodes SSL existantes et les modèles de fondation médicale à grande échelle. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/LeapLabTHU/CheXWorld.
English
Humans can develop internal world models that encode common sense knowledge,
telling them how the world works and predicting the consequences of their
actions. This concept has emerged as a promising direction for establishing
general-purpose machine-learning models in recent preliminary works, e.g., for
visual representation learning. In this paper, we present CheXWorld, the first
effort towards a self-supervised world model for radiographic images.
Specifically, our work develops a unified framework that simultaneously models
three aspects of medical knowledge essential for qualified radiologists,
including 1) local anatomical structures describing the fine-grained
characteristics of local tissues (e.g., architectures, shapes, and textures);
2) global anatomical layouts describing the global organization of the human
body (e.g., layouts of organs and skeletons); and 3) domain variations that
encourage CheXWorld to model the transitions across different appearance
domains of radiographs (e.g., varying clarity, contrast, and exposure caused by
collecting radiographs from different hospitals, devices, or patients).
Empirically, we design tailored qualitative and quantitative analyses,
revealing that CheXWorld successfully captures these three dimensions of
medical knowledge. Furthermore, transfer learning experiments across eight
medical image classification and segmentation benchmarks showcase that
CheXWorld significantly outperforms existing SSL methods and large-scale
medical foundation models. Code & pre-trained models are available at
https://github.com/LeapLabTHU/CheXWorld.Summary
AI-Generated Summary