BenchX: Единая система оценки для медицинского видео-языкового предварительного обучения на рентгенограммах грудной клетки
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
October 29, 2024
Авторы: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
cs.AI
Аннотация
Предварительное обучение медицинской зрительно-языковой модели (MedVLP) показывает перспективы в обучении обобщенных и переносимых визуальных представлений на основе парных и непарных медицинских изображений и отчетов. MedVLP может предоставлять полезные характеристики для последующих задач и облегчать адаптацию моделей, специфичных для задач, к новым настройкам с использованием меньшего количества примеров. Однако существующие методы MedVLP часто различаются по наборам данных, предварительной обработке и реализации дообучения. Это создает значительные трудности при оценке того, насколько хорошо метод MedVLP обобщается на различные клинически значимые задачи из-за отсутствия унифицированного, стандартизированного и всестороннего бенчмарка. Для заполнения этого пробела мы предлагаем BenchX, унифицированную систему бенчмарков, которая позволяет сравнивать и систематически анализировать методы MedVLP с использованием общедоступных наборов данных рентгеновских снимков груди. Конкретно, BenchX состоит из трех компонентов: 1) Обширные наборы данных, охватывающие девять наборов данных и четыре медицинские задачи; 2) Наборы бенчмарков для стандартизации предварительной обработки данных, разделения на обучающие и тестовые выборки и выбора параметров; 3) Унифицированные протоколы дообучения, которые адаптируют разнообразные методы MedVLP для последовательной адаптации к задачам классификации, сегментации и генерации отчетов, соответственно. Используя BenchX, мы устанавливаем базовые показатели для девяти передовых методов MedVLP и обнаружили, что производительность некоторых ранних методов MedVLP может быть улучшена до превосходства более поздних, что подталкивает к пересмотру разработок и выводов из предыдущих работ в области MedVLP. Наш код доступен по ссылке https://github.com/yangzhou12/BenchX.
English
Medical Vision-Language Pretraining (MedVLP) shows promise in learning
generalizable and transferable visual representations from paired and unpaired
medical images and reports. MedVLP can provide useful features to downstream
tasks and facilitate adapting task-specific models to new setups using fewer
examples. However, existing MedVLP methods often differ in terms of datasets,
preprocessing, and finetuning implementations. This pose great challenges in
evaluating how well a MedVLP method generalizes to various clinically-relevant
tasks due to the lack of unified, standardized, and comprehensive benchmark. To
fill this gap, we propose BenchX, a unified benchmark framework that enables
head-to-head comparison and systematical analysis between MedVLP methods using
public chest X-ray datasets. Specifically, BenchX is composed of three
components: 1) Comprehensive datasets covering nine datasets and four medical
tasks; 2) Benchmark suites to standardize data preprocessing, train-test
splits, and parameter selection; 3) Unified finetuning protocols that
accommodate heterogeneous MedVLP methods for consistent task adaptation in
classification, segmentation, and report generation, respectively. Utilizing
BenchX, we establish baselines for nine state-of-the-art MedVLP methods and
found that the performance of some early MedVLP methods can be enhanced to
surpass more recent ones, prompting a revisiting of the developments and
conclusions from prior works in MedVLP. Our code are available at
https://github.com/yangzhou12/BenchX.Summary
AI-Generated Summary