CheXGenBench : Un Benchmark Unifié pour la Fidélité, la Confidentialité et l'Utilité des Radiographies Thoraciques Synthétiques

papers.abstract

Nous présentons CheXGenBench, un cadre d'évaluation rigoureux et multidimensionnel pour la génération synthétique de radiographies thoraciques, qui évalue simultanément la fidélité, les risques de confidentialité et l'utilité clinique des modèles génératifs texte-image les plus avancés. Malgré les progrès rapides de l'IA générative pour les images du monde réel, les évaluations dans le domaine médical ont été entravées par des incohérences méthodologiques, des comparaisons architecturales obsolètes et des critères d'évaluation déconnectés qui abordent rarement la valeur clinique pratique des échantillons synthétiques. CheXGenBench surmonte ces limitations grâce à un partitionnement standardisé des données et un protocole d'évaluation unifié comprenant plus de 20 métriques quantitatives qui analysent systématiquement la qualité de génération, les vulnérabilités potentielles en matière de confidentialité et l'applicabilité clinique en aval pour 11 architectures texte-image de pointe. Nos résultats révèlent des inefficacités critiques dans les protocoles d'évaluation existants, en particulier dans l'évaluation de la fidélité générative, conduisant à des comparaisons incohérentes et peu informatives. Notre cadre établit un benchmark standardisé pour la communauté de l'IA médicale, permettant des comparaisons objectives et reproductibles tout en facilitant l'intégration transparente des modèles génératifs existants et futurs. De plus, nous publions un ensemble de données synthétiques de haute qualité, SynthCheX-75K, comprenant 75 000 radiographies générées par le modèle le plus performant (Sana 0.6B) dans notre benchmark, pour soutenir les recherches ultérieures dans ce domaine critique. Grâce à CheXGenBench, nous établissons un nouvel état de l'art et mettons à disposition notre cadre, nos modèles et l'ensemble de données SynthCheX-75K sur https://raman1121.github.io/CheXGenBench/.

English

We introduce CheXGenBench, a rigorous and multifaceted evaluation framework for synthetic chest radiograph generation that simultaneously assesses fidelity, privacy risks, and clinical utility across state-of-the-art text-to-image generative models. Despite rapid advancements in generative AI for real-world imagery, medical domain evaluations have been hindered by methodological inconsistencies, outdated architectural comparisons, and disconnected assessment criteria that rarely address the practical clinical value of synthetic samples. CheXGenBench overcomes these limitations through standardised data partitioning and a unified evaluation protocol comprising over 20 quantitative metrics that systematically analyse generation quality, potential privacy vulnerabilities, and downstream clinical applicability across 11 leading text-to-image architectures. Our results reveal critical inefficiencies in the existing evaluation protocols, particularly in assessing generative fidelity, leading to inconsistent and uninformative comparisons. Our framework establishes a standardised benchmark for the medical AI community, enabling objective and reproducible comparisons while facilitating seamless integration of both existing and future generative models. Additionally, we release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K radiographs generated by the top-performing model (Sana 0.6B) in our benchmark to support further research in this critical domain. Through CheXGenBench, we establish a new state-of-the-art and release our framework, models, and SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/

CheXGenBench : Un Benchmark Unifié pour la Fidélité, la Confidentialité et l'Utilité des Radiographies Thoraciques Synthétiques

CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

papers.abstract

Support