CheXGenBench: Um Benchmark Unificado para Fidelidade, Privacidade e Utilidade de Radiografias Torácicas Sintéticas
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs
May 15, 2025
Autores: Raman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales
cs.AI
Resumo
Apresentamos o CheXGenBench, uma estrutura de avaliação rigorosa e multifacetada para a geração sintética de radiografias torácicas que avalia simultaneamente fidelidade, riscos de privacidade e utilidade clínica em modelos generativos de texto para imagem de última geração. Apesar dos rápidos avanços na IA generativa para imagens do mundo real, as avaliações no domínio médico têm sido prejudicadas por inconsistências metodológicas, comparações arquitetônicas desatualizadas e critérios de avaliação desconectados que raramente abordam o valor clínico prático das amostras sintéticas. O CheXGenBench supera essas limitações por meio de particionamento de dados padronizado e um protocolo de avaliação unificado que compreende mais de 20 métricas quantitativas, analisando sistematicamente a qualidade da geração, potenciais vulnerabilidades de privacidade e aplicabilidade clínica em 11 arquiteturas líderes de texto para imagem. Nossos resultados revelam ineficiências críticas nos protocolos de avaliação existentes, particularmente na avaliação da fidelidade gerativa, levando a comparações inconsistentes e pouco informativas. Nossa estrutura estabelece um benchmark padronizado para a comunidade de IA médica, permitindo comparações objetivas e reproduzíveis, além de facilitar a integração contínua de modelos generativos existentes e futuros. Adicionalmente, disponibilizamos um conjunto de dados sintético de alta qualidade, o SynthCheX-75K, composto por 75 mil radiografias geradas pelo modelo de melhor desempenho (Sana 0.6B) em nosso benchmark, para apoiar pesquisas adicionais nesse domínio crítico. Por meio do CheXGenBench, estabelecemos um novo estado da arte e disponibilizamos nossa estrutura, modelos e o conjunto de dados SynthCheX-75K em https://raman1121.github.io/CheXGenBench/.
English
We introduce CheXGenBench, a rigorous and multifaceted evaluation framework
for synthetic chest radiograph generation that simultaneously assesses
fidelity, privacy risks, and clinical utility across state-of-the-art
text-to-image generative models. Despite rapid advancements in generative AI
for real-world imagery, medical domain evaluations have been hindered by
methodological inconsistencies, outdated architectural comparisons, and
disconnected assessment criteria that rarely address the practical clinical
value of synthetic samples. CheXGenBench overcomes these limitations through
standardised data partitioning and a unified evaluation protocol comprising
over 20 quantitative metrics that systematically analyse generation quality,
potential privacy vulnerabilities, and downstream clinical applicability across
11 leading text-to-image architectures. Our results reveal critical
inefficiencies in the existing evaluation protocols, particularly in assessing
generative fidelity, leading to inconsistent and uninformative comparisons. Our
framework establishes a standardised benchmark for the medical AI community,
enabling objective and reproducible comparisons while facilitating seamless
integration of both existing and future generative models. Additionally, we
release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K
radiographs generated by the top-performing model (Sana 0.6B) in our benchmark
to support further research in this critical domain. Through CheXGenBench, we
establish a new state-of-the-art and release our framework, models, and
SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/