CheXWorld: Explorando a Modelagem de Mundos de Imagens para a Representação de Radiografias
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning
April 18, 2025
Autores: Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
cs.AI
Resumo
Os seres humanos podem desenvolver modelos internos do mundo que codificam conhecimento de senso comum, informando-lhes como o mundo funciona e prevendo as consequências de suas ações. Esse conceito surgiu como uma direção promissora para estabelecer modelos de aprendizado de máquina de propósito geral em trabalhos preliminares recentes, por exemplo, para aprendizado de representação visual. Neste artigo, apresentamos o CheXWorld, o primeiro esforço em direção a um modelo de mundo auto-supervisionado para imagens radiográficas. Especificamente, nosso trabalho desenvolve uma estrutura unificada que modela simultaneamente três aspectos do conhecimento médico essenciais para radiologistas qualificados, incluindo 1) estruturas anatômicas locais que descrevem as características detalhadas dos tecidos locais (por exemplo, arquiteturas, formas e texturas); 2) layouts anatômicos globais que descrevem a organização global do corpo humano (por exemplo, layouts de órgãos e esqueletos); e 3) variações de domínio que incentivam o CheXWorld a modelar as transições entre diferentes domínios de aparência de radiografias (por exemplo, variações de clareza, contraste e exposição causadas pela coleta de radiografias em diferentes hospitais, dispositivos ou pacientes). Empiricamente, projetamos análises qualitativas e quantitativas personalizadas, revelando que o CheXWorld captura com sucesso essas três dimensões do conhecimento médico. Além disso, experimentos de transferência de aprendizagem em oito benchmarks de classificação e segmentação de imagens médicas demonstram que o CheXWorld supera significativamente os métodos SSL existentes e os modelos de fundação médica em larga escala. Código e modelos pré-treinados estão disponíveis em https://github.com/LeapLabTHU/CheXWorld.
English
Humans can develop internal world models that encode common sense knowledge,
telling them how the world works and predicting the consequences of their
actions. This concept has emerged as a promising direction for establishing
general-purpose machine-learning models in recent preliminary works, e.g., for
visual representation learning. In this paper, we present CheXWorld, the first
effort towards a self-supervised world model for radiographic images.
Specifically, our work develops a unified framework that simultaneously models
three aspects of medical knowledge essential for qualified radiologists,
including 1) local anatomical structures describing the fine-grained
characteristics of local tissues (e.g., architectures, shapes, and textures);
2) global anatomical layouts describing the global organization of the human
body (e.g., layouts of organs and skeletons); and 3) domain variations that
encourage CheXWorld to model the transitions across different appearance
domains of radiographs (e.g., varying clarity, contrast, and exposure caused by
collecting radiographs from different hospitals, devices, or patients).
Empirically, we design tailored qualitative and quantitative analyses,
revealing that CheXWorld successfully captures these three dimensions of
medical knowledge. Furthermore, transfer learning experiments across eight
medical image classification and segmentation benchmarks showcase that
CheXWorld significantly outperforms existing SSL methods and large-scale
medical foundation models. Code & pre-trained models are available at
https://github.com/LeapLabTHU/CheXWorld.Summary
AI-Generated Summary