CheXGenBench: Un punto de referencia unificado para la fidelidad, privacidad y utilidad de radiografías torácicas sintéticas
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs
May 15, 2025
Autores: Raman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales
cs.AI
Resumen
Presentamos CheXGenBench, un marco de evaluación riguroso y multifacético para la generación sintética de radiografías torácicas que evalúa simultáneamente la fidelidad, los riesgos de privacidad y la utilidad clínica en los modelos generativos de texto a imagen más avanzados. A pesar de los rápidos avances en la IA generativa para imágenes del mundo real, las evaluaciones en el dominio médico se han visto obstaculizadas por inconsistencias metodológicas, comparaciones arquitectónicas obsoletas y criterios de evaluación desconectados que rara vez abordan el valor clínico práctico de las muestras sintéticas. CheXGenBench supera estas limitaciones mediante una partición de datos estandarizada y un protocolo de evaluación unificado que comprende más de 20 métricas cuantitativas que analizan sistemáticamente la calidad de la generación, las posibles vulnerabilidades de privacidad y la aplicabilidad clínica en 11 arquitecturas líderes de texto a imagen. Nuestros resultados revelan ineficiencias críticas en los protocolos de evaluación existentes, particularmente en la evaluación de la fidelidad generativa, lo que lleva a comparaciones inconsistentes y poco informativas. Nuestro marco establece un punto de referencia estandarizado para la comunidad de IA médica, permitiendo comparaciones objetivas y reproducibles mientras facilita la integración sin problemas de modelos generativos tanto existentes como futuros. Además, publicamos un conjunto de datos sintéticos de alta calidad, SynthCheX-75K, que comprende 75,000 radiografías generadas por el modelo de mejor rendimiento (Sana 0.6B) en nuestro punto de referencia, para apoyar investigaciones adicionales en este dominio crítico. A través de CheXGenBench, establecemos un nuevo estado del arte y publicamos nuestro marco, modelos y el conjunto de datos SynthCheX-75K en https://raman1121.github.io/CheXGenBench/.
English
We introduce CheXGenBench, a rigorous and multifaceted evaluation framework
for synthetic chest radiograph generation that simultaneously assesses
fidelity, privacy risks, and clinical utility across state-of-the-art
text-to-image generative models. Despite rapid advancements in generative AI
for real-world imagery, medical domain evaluations have been hindered by
methodological inconsistencies, outdated architectural comparisons, and
disconnected assessment criteria that rarely address the practical clinical
value of synthetic samples. CheXGenBench overcomes these limitations through
standardised data partitioning and a unified evaluation protocol comprising
over 20 quantitative metrics that systematically analyse generation quality,
potential privacy vulnerabilities, and downstream clinical applicability across
11 leading text-to-image architectures. Our results reveal critical
inefficiencies in the existing evaluation protocols, particularly in assessing
generative fidelity, leading to inconsistent and uninformative comparisons. Our
framework establishes a standardised benchmark for the medical AI community,
enabling objective and reproducible comparisons while facilitating seamless
integration of both existing and future generative models. Additionally, we
release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K
radiographs generated by the top-performing model (Sana 0.6B) in our benchmark
to support further research in this critical domain. Through CheXGenBench, we
establish a new state-of-the-art and release our framework, models, and
SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/Summary
AI-Generated Summary