BenchX: Um Framework de Referência Unificado para Pré-treinamento de Visão e Linguagem Médica em Radiografias de Tórax
BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays
October 29, 2024
Autores: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
cs.AI
Resumo
A Pré-treinamento de Visão e Linguagem Médica (MedVLP) mostra promessa na aprendizagem de representações visuais generalizáveis e transferíveis a partir de imagens médicas e relatórios emparelhados e não emparelhados. O MedVLP pode fornecer características úteis para tarefas subsequentes e facilitar a adaptação de modelos específicos para novas configurações usando menos exemplos. No entanto, os métodos de MedVLP existentes frequentemente diferem em termos de conjuntos de dados, pré-processamento e implementações de ajuste fino. Isso representa grandes desafios na avaliação de quão bem um método de MedVLP generaliza para várias tarefas clinicamente relevantes devido à falta de um benchmark unificado, padronizado e abrangente. Para preencher essa lacuna, propomos o BenchX, um framework de benchmark unificado que permite a comparação direta e a análise sistemática entre métodos de MedVLP usando conjuntos de dados públicos de radiografias de tórax. Especificamente, o BenchX é composto por três componentes: 1) Conjuntos de dados abrangentes que cobrem nove conjuntos de dados e quatro tarefas médicas; 2) Conjuntos de benchmark para padronizar o pré-processamento de dados, divisões de treino-teste e seleção de parâmetros; 3) Protocolos de ajuste fino unificados que acomodam métodos heterogêneos de MedVLP para uma adaptação consistente de tarefas em classificação, segmentação e geração de relatórios, respectivamente. Utilizando o BenchX, estabelecemos bases para nove métodos de MedVLP de ponta e descobrimos que o desempenho de alguns métodos de MedVLP mais antigos pode ser aprimorado para superar os mais recentes, levando a uma reavaliação dos desenvolvimentos e conclusões de trabalhos anteriores em MedVLP. Nosso código está disponível em https://github.com/yangzhou12/BenchX.
English
Medical Vision-Language Pretraining (MedVLP) shows promise in learning
generalizable and transferable visual representations from paired and unpaired
medical images and reports. MedVLP can provide useful features to downstream
tasks and facilitate adapting task-specific models to new setups using fewer
examples. However, existing MedVLP methods often differ in terms of datasets,
preprocessing, and finetuning implementations. This pose great challenges in
evaluating how well a MedVLP method generalizes to various clinically-relevant
tasks due to the lack of unified, standardized, and comprehensive benchmark. To
fill this gap, we propose BenchX, a unified benchmark framework that enables
head-to-head comparison and systematical analysis between MedVLP methods using
public chest X-ray datasets. Specifically, BenchX is composed of three
components: 1) Comprehensive datasets covering nine datasets and four medical
tasks; 2) Benchmark suites to standardize data preprocessing, train-test
splits, and parameter selection; 3) Unified finetuning protocols that
accommodate heterogeneous MedVLP methods for consistent task adaptation in
classification, segmentation, and report generation, respectively. Utilizing
BenchX, we establish baselines for nine state-of-the-art MedVLP methods and
found that the performance of some early MedVLP methods can be enhanced to
surpass more recent ones, prompting a revisiting of the developments and
conclusions from prior works in MedVLP. Our code are available at
https://github.com/yangzhou12/BenchX.Summary
AI-Generated Summary