CheXWorld: Esplorazione della Modellazione del Mondo Immagine per l'Apprendimento della Rappresentazione di Radiografie
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning
April 18, 2025
Autori: Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
cs.AI
Abstract
Gli esseri umani possono sviluppare modelli interni del mondo che codificano conoscenze di senso comune, indicando loro come funziona il mondo e prevedendo le conseguenze delle loro azioni. Questo concetto è emerso come una direzione promettente per stabilire modelli di apprendimento automatico a scopo generale in lavori preliminari recenti, ad esempio per l'apprendimento di rappresentazioni visive. In questo articolo, presentiamo CheXWorld, il primo tentativo verso un modello del mondo auto-supervisionato per immagini radiografiche. Nello specifico, il nostro lavoro sviluppa un framework unificato che modella simultaneamente tre aspetti della conoscenza medica essenziali per radiologi qualificati, tra cui 1) strutture anatomiche locali che descrivono le caratteristiche dettagliate dei tessuti locali (ad esempio, architetture, forme e texture); 2) layout anatomici globali che descrivono l'organizzazione globale del corpo umano (ad esempio, la disposizione di organi e scheletri); e 3) variazioni di dominio che incoraggiano CheXWorld a modellare le transizioni tra diversi domini di aspetto delle radiografie (ad esempio, variazioni di chiarezza, contrasto ed esposizione causate dalla raccolta di radiografie da diversi ospedali, dispositivi o pazienti). Empiricamente, progettiamo analisi qualitative e quantitative su misura, rivelando che CheXWorld cattura con successo queste tre dimensioni della conoscenza medica. Inoltre, esperimenti di transfer learning su otto benchmark di classificazione e segmentazione di immagini mediche dimostrano che CheXWorld supera significativamente i metodi SSL esistenti e i modelli di fondazione medica su larga scala. Codice e modelli pre-addestrati sono disponibili all'indirizzo https://github.com/LeapLabTHU/CheXWorld.
English
Humans can develop internal world models that encode common sense knowledge,
telling them how the world works and predicting the consequences of their
actions. This concept has emerged as a promising direction for establishing
general-purpose machine-learning models in recent preliminary works, e.g., for
visual representation learning. In this paper, we present CheXWorld, the first
effort towards a self-supervised world model for radiographic images.
Specifically, our work develops a unified framework that simultaneously models
three aspects of medical knowledge essential for qualified radiologists,
including 1) local anatomical structures describing the fine-grained
characteristics of local tissues (e.g., architectures, shapes, and textures);
2) global anatomical layouts describing the global organization of the human
body (e.g., layouts of organs and skeletons); and 3) domain variations that
encourage CheXWorld to model the transitions across different appearance
domains of radiographs (e.g., varying clarity, contrast, and exposure caused by
collecting radiographs from different hospitals, devices, or patients).
Empirically, we design tailored qualitative and quantitative analyses,
revealing that CheXWorld successfully captures these three dimensions of
medical knowledge. Furthermore, transfer learning experiments across eight
medical image classification and segmentation benchmarks showcase that
CheXWorld significantly outperforms existing SSL methods and large-scale
medical foundation models. Code & pre-trained models are available at
https://github.com/LeapLabTHU/CheXWorld.