ChatPaper.aiChatPaper

CheXWorld: Esplorazione della Modellazione del Mondo Immagine per l'Apprendimento della Rappresentazione di Radiografie

CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

April 18, 2025
Autori: Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
cs.AI

Abstract

Gli esseri umani possono sviluppare modelli interni del mondo che codificano conoscenze di senso comune, indicando loro come funziona il mondo e prevedendo le conseguenze delle loro azioni. Questo concetto è emerso come una direzione promettente per stabilire modelli di apprendimento automatico a scopo generale in lavori preliminari recenti, ad esempio per l'apprendimento di rappresentazioni visive. In questo articolo, presentiamo CheXWorld, il primo tentativo verso un modello del mondo auto-supervisionato per immagini radiografiche. Nello specifico, il nostro lavoro sviluppa un framework unificato che modella simultaneamente tre aspetti della conoscenza medica essenziali per radiologi qualificati, tra cui 1) strutture anatomiche locali che descrivono le caratteristiche dettagliate dei tessuti locali (ad esempio, architetture, forme e texture); 2) layout anatomici globali che descrivono l'organizzazione globale del corpo umano (ad esempio, la disposizione di organi e scheletri); e 3) variazioni di dominio che incoraggiano CheXWorld a modellare le transizioni tra diversi domini di aspetto delle radiografie (ad esempio, variazioni di chiarezza, contrasto ed esposizione causate dalla raccolta di radiografie da diversi ospedali, dispositivi o pazienti). Empiricamente, progettiamo analisi qualitative e quantitative su misura, rivelando che CheXWorld cattura con successo queste tre dimensioni della conoscenza medica. Inoltre, esperimenti di transfer learning su otto benchmark di classificazione e segmentazione di immagini mediche dimostrano che CheXWorld supera significativamente i metodi SSL esistenti e i modelli di fondazione medica su larga scala. Codice e modelli pre-addestrati sono disponibili all'indirizzo https://github.com/LeapLabTHU/CheXWorld.
English
Humans can develop internal world models that encode common sense knowledge, telling them how the world works and predicting the consequences of their actions. This concept has emerged as a promising direction for establishing general-purpose machine-learning models in recent preliminary works, e.g., for visual representation learning. In this paper, we present CheXWorld, the first effort towards a self-supervised world model for radiographic images. Specifically, our work develops a unified framework that simultaneously models three aspects of medical knowledge essential for qualified radiologists, including 1) local anatomical structures describing the fine-grained characteristics of local tissues (e.g., architectures, shapes, and textures); 2) global anatomical layouts describing the global organization of the human body (e.g., layouts of organs and skeletons); and 3) domain variations that encourage CheXWorld to model the transitions across different appearance domains of radiographs (e.g., varying clarity, contrast, and exposure caused by collecting radiographs from different hospitals, devices, or patients). Empirically, we design tailored qualitative and quantitative analyses, revealing that CheXWorld successfully captures these three dimensions of medical knowledge. Furthermore, transfer learning experiments across eight medical image classification and segmentation benchmarks showcase that CheXWorld significantly outperforms existing SSL methods and large-scale medical foundation models. Code & pre-trained models are available at https://github.com/LeapLabTHU/CheXWorld.
PDF172April 23, 2025