BenchX: 胸部X線を用いた医療ビジョン言語事前学習のための統一ベンチマークフレームワーク
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
October 29, 2024
著者: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
cs.AI
要旨
医療ビジョン言語事前学習(MedVLP)は、対になった医療画像とレポートから汎化可能で移転可能な視覚表現を学習する可能性を示しています。MedVLPは、下流タスクに有用な特徴を提供し、少ない例を使用してタスク固有のモデルを新しいセットアップに適応させるのを容易にします。ただし、既存のMedVLP方法は、データセット、前処理、およびファインチューニングの実装方法についてしばしば異なります。これは、統一された、標準化された、包括的なベンチマークの欠如により、MedVLP方法が臨床的に関連するさまざまなタスクにどのように一般化するかを評価する際に大きな課題を提起します。このギャップを埋めるために、我々はBenchXを提案します。これは、公開されている胸部X線データセットを使用して、MedVLP方法間の対照的な比較と体系的な分析を可能にする統一されたベンチマークフレームワークです。具体的には、BenchXは次の3つのコンポーネントで構成されています:1)9つのデータセットと4つの医療タスクをカバーする包括的なデータセット、2)データ前処理、トレインテスト分割、およびパラメータ選択を標準化するベンチマークスイート、3)分類、セグメンテーション、およびレポート生成において一貫したタスク適応のための異種MedVLP方法を収容する統一されたファインチューニングプロトコル。BenchXを活用して、私たちは9つの最先端MedVLP方法のベースラインを確立し、一部の初期MedVLP方法のパフォーマンスを向上させ、より新しいものを上回ることができることがわかりました。これにより、MedVLPに関する過去の研究からの進展と結論を再検討するきっかけとなりました。私たちのコードはhttps://github.com/yangzhou12/BenchX で入手可能です。
English
Medical Vision-Language Pretraining (MedVLP) shows promise in learning
generalizable and transferable visual representations from paired and unpaired
medical images and reports. MedVLP can provide useful features to downstream
tasks and facilitate adapting task-specific models to new setups using fewer
examples. However, existing MedVLP methods often differ in terms of datasets,
preprocessing, and finetuning implementations. This pose great challenges in
evaluating how well a MedVLP method generalizes to various clinically-relevant
tasks due to the lack of unified, standardized, and comprehensive benchmark. To
fill this gap, we propose BenchX, a unified benchmark framework that enables
head-to-head comparison and systematical analysis between MedVLP methods using
public chest X-ray datasets. Specifically, BenchX is composed of three
components: 1) Comprehensive datasets covering nine datasets and four medical
tasks; 2) Benchmark suites to standardize data preprocessing, train-test
splits, and parameter selection; 3) Unified finetuning protocols that
accommodate heterogeneous MedVLP methods for consistent task adaptation in
classification, segmentation, and report generation, respectively. Utilizing
BenchX, we establish baselines for nine state-of-the-art MedVLP methods and
found that the performance of some early MedVLP methods can be enhanced to
surpass more recent ones, prompting a revisiting of the developments and
conclusions from prior works in MedVLP. Our code are available at
https://github.com/yangzhou12/BenchX.Summary
AI-Generated Summary