ChatPaper.aiChatPaper

CheXWorld: Исследование моделирования мира изображений для обучения представлений рентгенограмм

CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

April 18, 2025
Авторы: Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
cs.AI

Аннотация

Люди способны формировать внутренние модели мира, которые кодируют знания здравого смысла, объясняя, как устроен мир, и предсказывая последствия их действий. Эта концепция стала перспективным направлением для создания универсальных моделей машинного обучения в последних предварительных работах, например, в обучении визуальных представлений. В данной статье мы представляем CheXWorld — первую попытку создания самообучаемой модели мира для рентгеновских изображений. В частности, наша работа разрабатывает унифицированную структуру, которая одновременно моделирует три аспекта медицинских знаний, необходимых для квалифицированных радиологов, включая: 1) локальные анатомические структуры, описывающие детальные характеристики локальных тканей (например, архитектуру, форму и текстуру); 2) глобальные анатомические схемы, описывающие общую организацию человеческого тела (например, расположение органов и скелета); и 3) вариации доменов, которые побуждают CheXWorld моделировать переходы между различными визуальными доменами рентгеновских снимков (например, различия в четкости, контрасте и экспозиции, вызванные сбором снимков в разных больницах, на разных устройствах или у разных пациентов). Эмпирически мы разработали специализированные качественные и количественные анализы, которые показывают, что CheXWorld успешно захватывает эти три измерения медицинских знаний. Более того, эксперименты по трансферному обучению на восьми эталонных задачах классификации и сегментации медицинских изображений демонстрируют, что CheXWorld значительно превосходит существующие методы самообучения (SSL) и крупномасштабные медицинские базовые модели. Код и предобученные модели доступны по адресу https://github.com/LeapLabTHU/CheXWorld.
English
Humans can develop internal world models that encode common sense knowledge, telling them how the world works and predicting the consequences of their actions. This concept has emerged as a promising direction for establishing general-purpose machine-learning models in recent preliminary works, e.g., for visual representation learning. In this paper, we present CheXWorld, the first effort towards a self-supervised world model for radiographic images. Specifically, our work develops a unified framework that simultaneously models three aspects of medical knowledge essential for qualified radiologists, including 1) local anatomical structures describing the fine-grained characteristics of local tissues (e.g., architectures, shapes, and textures); 2) global anatomical layouts describing the global organization of the human body (e.g., layouts of organs and skeletons); and 3) domain variations that encourage CheXWorld to model the transitions across different appearance domains of radiographs (e.g., varying clarity, contrast, and exposure caused by collecting radiographs from different hospitals, devices, or patients). Empirically, we design tailored qualitative and quantitative analyses, revealing that CheXWorld successfully captures these three dimensions of medical knowledge. Furthermore, transfer learning experiments across eight medical image classification and segmentation benchmarks showcase that CheXWorld significantly outperforms existing SSL methods and large-scale medical foundation models. Code & pre-trained models are available at https://github.com/LeapLabTHU/CheXWorld.

Summary

AI-Generated Summary

PDF172April 23, 2025