ChatPaper.aiChatPaper

BenchX: Um Framework de Referência Unificado para Pré-treinamento de Visão e Linguagem Médica em Radiografias de Tórax

BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-Rays

October 29, 2024
Autores: Yang Zhou, Tan Li Hui Faith, Yanyu Xu, Sicong Leng, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
cs.AI

Resumo

A Pré-treinamento de Visão e Linguagem Médica (MedVLP) mostra promessa na aprendizagem de representações visuais generalizáveis e transferíveis a partir de imagens médicas e relatórios emparelhados e não emparelhados. O MedVLP pode fornecer características úteis para tarefas subsequentes e facilitar a adaptação de modelos específicos para novas configurações usando menos exemplos. No entanto, os métodos de MedVLP existentes frequentemente diferem em termos de conjuntos de dados, pré-processamento e implementações de ajuste fino. Isso representa grandes desafios na avaliação de quão bem um método de MedVLP generaliza para várias tarefas clinicamente relevantes devido à falta de um benchmark unificado, padronizado e abrangente. Para preencher essa lacuna, propomos o BenchX, um framework de benchmark unificado que permite a comparação direta e a análise sistemática entre métodos de MedVLP usando conjuntos de dados públicos de radiografias de tórax. Especificamente, o BenchX é composto por três componentes: 1) Conjuntos de dados abrangentes que cobrem nove conjuntos de dados e quatro tarefas médicas; 2) Conjuntos de benchmark para padronizar o pré-processamento de dados, divisões de treino-teste e seleção de parâmetros; 3) Protocolos de ajuste fino unificados que acomodam métodos heterogêneos de MedVLP para uma adaptação consistente de tarefas em classificação, segmentação e geração de relatórios, respectivamente. Utilizando o BenchX, estabelecemos bases para nove métodos de MedVLP de ponta e descobrimos que o desempenho de alguns métodos de MedVLP mais antigos pode ser aprimorado para superar os mais recentes, levando a uma reavaliação dos desenvolvimentos e conclusões de trabalhos anteriores em MedVLP. Nosso código está disponível em https://github.com/yangzhou12/BenchX.
English
Medical Vision-Language Pretraining (MedVLP) shows promise in learning generalizable and transferable visual representations from paired and unpaired medical images and reports. MedVLP can provide useful features to downstream tasks and facilitate adapting task-specific models to new setups using fewer examples. However, existing MedVLP methods often differ in terms of datasets, preprocessing, and finetuning implementations. This pose great challenges in evaluating how well a MedVLP method generalizes to various clinically-relevant tasks due to the lack of unified, standardized, and comprehensive benchmark. To fill this gap, we propose BenchX, a unified benchmark framework that enables head-to-head comparison and systematical analysis between MedVLP methods using public chest X-ray datasets. Specifically, BenchX is composed of three components: 1) Comprehensive datasets covering nine datasets and four medical tasks; 2) Benchmark suites to standardize data preprocessing, train-test splits, and parameter selection; 3) Unified finetuning protocols that accommodate heterogeneous MedVLP methods for consistent task adaptation in classification, segmentation, and report generation, respectively. Utilizing BenchX, we establish baselines for nine state-of-the-art MedVLP methods and found that the performance of some early MedVLP methods can be enhanced to surpass more recent ones, prompting a revisiting of the developments and conclusions from prior works in MedVLP. Our code are available at https://github.com/yangzhou12/BenchX.

Summary

AI-Generated Summary

PDF102November 13, 2024