CheXGenBench : Un Benchmark Unifié pour la Fidélité, la Confidentialité et l'Utilité des Radiographies Thoraciques Synthétiques
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs
May 15, 2025
Auteurs: Raman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales
cs.AI
Résumé
Nous présentons CheXGenBench, un cadre d'évaluation rigoureux et multidimensionnel pour la génération synthétique de radiographies thoraciques, qui évalue simultanément la fidélité, les risques de confidentialité et l'utilité clinique des modèles génératifs texte-image les plus avancés. Malgré les progrès rapides de l'IA générative pour les images du monde réel, les évaluations dans le domaine médical ont été entravées par des incohérences méthodologiques, des comparaisons architecturales obsolètes et des critères d'évaluation déconnectés qui abordent rarement la valeur clinique pratique des échantillons synthétiques. CheXGenBench surmonte ces limitations grâce à un partitionnement standardisé des données et un protocole d'évaluation unifié comprenant plus de 20 métriques quantitatives qui analysent systématiquement la qualité de génération, les vulnérabilités potentielles en matière de confidentialité et l'applicabilité clinique en aval pour 11 architectures texte-image de pointe. Nos résultats révèlent des inefficacités critiques dans les protocoles d'évaluation existants, en particulier dans l'évaluation de la fidélité générative, conduisant à des comparaisons incohérentes et peu informatives. Notre cadre établit un benchmark standardisé pour la communauté de l'IA médicale, permettant des comparaisons objectives et reproductibles tout en facilitant l'intégration transparente des modèles génératifs existants et futurs. De plus, nous publions un ensemble de données synthétiques de haute qualité, SynthCheX-75K, comprenant 75 000 radiographies générées par le modèle le plus performant (Sana 0.6B) dans notre benchmark, pour soutenir les recherches ultérieures dans ce domaine critique. Grâce à CheXGenBench, nous établissons un nouvel état de l'art et mettons à disposition notre cadre, nos modèles et l'ensemble de données SynthCheX-75K sur https://raman1121.github.io/CheXGenBench/.
English
We introduce CheXGenBench, a rigorous and multifaceted evaluation framework
for synthetic chest radiograph generation that simultaneously assesses
fidelity, privacy risks, and clinical utility across state-of-the-art
text-to-image generative models. Despite rapid advancements in generative AI
for real-world imagery, medical domain evaluations have been hindered by
methodological inconsistencies, outdated architectural comparisons, and
disconnected assessment criteria that rarely address the practical clinical
value of synthetic samples. CheXGenBench overcomes these limitations through
standardised data partitioning and a unified evaluation protocol comprising
over 20 quantitative metrics that systematically analyse generation quality,
potential privacy vulnerabilities, and downstream clinical applicability across
11 leading text-to-image architectures. Our results reveal critical
inefficiencies in the existing evaluation protocols, particularly in assessing
generative fidelity, leading to inconsistent and uninformative comparisons. Our
framework establishes a standardised benchmark for the medical AI community,
enabling objective and reproducible comparisons while facilitating seamless
integration of both existing and future generative models. Additionally, we
release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K
radiographs generated by the top-performing model (Sana 0.6B) in our benchmark
to support further research in this critical domain. Through CheXGenBench, we
establish a new state-of-the-art and release our framework, models, and
SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/Summary
AI-Generated Summary