CheXWorld: Exploración del Modelado de Mundos de Imágenes para el Aprendizaje de Representaciones en Radiografías
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning
April 18, 2025
Autores: Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
cs.AI
Resumen
Los seres humanos pueden desarrollar modelos internos del mundo que codifican conocimiento de sentido común, indicándoles cómo funciona el mundo y prediciendo las consecuencias de sus acciones. Este concepto ha surgido como una dirección prometedora para establecer modelos de aprendizaje automático de propósito general en trabajos preliminares recientes, por ejemplo, para el aprendizaje de representaciones visuales. En este artículo, presentamos CheXWorld, el primer esfuerzo hacia un modelo del mundo auto-supervisado para imágenes radiográficas. Específicamente, nuestro trabajo desarrolla un marco unificado que modela simultáneamente tres aspectos del conocimiento médico esenciales para radiólogos calificados, incluyendo 1) estructuras anatómicas locales que describen las características detalladas de los tejidos locales (por ejemplo, arquitecturas, formas y texturas); 2) disposiciones anatómicas globales que describen la organización global del cuerpo humano (por ejemplo, la disposición de órganos y esqueletos); y 3) variaciones de dominio que fomentan que CheXWorld modele las transiciones entre diferentes dominios de apariencia de las radiografías (por ejemplo, variaciones en la claridad, el contraste y la exposición causadas por la recopilación de radiografías en diferentes hospitales, dispositivos o pacientes). Empíricamente, diseñamos análisis cualitativos y cuantitativos personalizados, revelando que CheXWorld captura con éxito estas tres dimensiones del conocimiento médico. Además, los experimentos de transferencia de aprendizaje en ocho puntos de referencia de clasificación y segmentación de imágenes médicas demuestran que CheXWorld supera significativamente a los métodos SSL existentes y a los modelos de base médica a gran escala. El código y los modelos preentrenados están disponibles en https://github.com/LeapLabTHU/CheXWorld.
English
Humans can develop internal world models that encode common sense knowledge,
telling them how the world works and predicting the consequences of their
actions. This concept has emerged as a promising direction for establishing
general-purpose machine-learning models in recent preliminary works, e.g., for
visual representation learning. In this paper, we present CheXWorld, the first
effort towards a self-supervised world model for radiographic images.
Specifically, our work develops a unified framework that simultaneously models
three aspects of medical knowledge essential for qualified radiologists,
including 1) local anatomical structures describing the fine-grained
characteristics of local tissues (e.g., architectures, shapes, and textures);
2) global anatomical layouts describing the global organization of the human
body (e.g., layouts of organs and skeletons); and 3) domain variations that
encourage CheXWorld to model the transitions across different appearance
domains of radiographs (e.g., varying clarity, contrast, and exposure caused by
collecting radiographs from different hospitals, devices, or patients).
Empirically, we design tailored qualitative and quantitative analyses,
revealing that CheXWorld successfully captures these three dimensions of
medical knowledge. Furthermore, transfer learning experiments across eight
medical image classification and segmentation benchmarks showcase that
CheXWorld significantly outperforms existing SSL methods and large-scale
medical foundation models. Code & pre-trained models are available at
https://github.com/LeapLabTHU/CheXWorld.Summary
AI-Generated Summary