CheXGenBench: Een Uniform Benchmark voor Nauwkeurigheid, Privacy en Nuttigheid van Synthetische Thoraxfoto's
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs
May 15, 2025
Auteurs: Raman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales
cs.AI
Samenvatting
We introduceren CheXGenBench, een rigoureus en veelzijdig evaluatiekader voor de generatie van synthetische thoraxfoto's dat tegelijkertijd de getrouwheid, privacyrisico's en klinische bruikbaarheid beoordeelt bij state-of-the-art tekst-naar-beeld generatieve modellen. Ondanks snelle vooruitgang in generatieve AI voor real-world beeldmateriaal, worden evaluaties in de medische sector belemmerd door methodologische inconsistenties, verouderde architectuurvergelijkingen en losstaande beoordelingscriteria die zelden de praktische klinische waarde van synthetische samples aanpakken. CheXGenBench overbrugt deze beperkingen door gestandaardiseerde data-partitionering en een uniform evaluatieprotocol dat meer dan 20 kwantitatieve metrieken omvat, die systematisch de generatiekwaliteit, potentiële privacykwetsbaarheden en downstream klinische toepasbaarheid analyseren over 11 toonaangevende tekst-naar-beeld architecturen. Onze resultaten onthullen kritieke inefficiënties in de bestaande evaluatieprotocollen, met name bij het beoordelen van generatieve getrouwheid, wat leidt tot inconsistente en weinig informatieve vergelijkingen. Ons kader stelt een gestandaardiseerde benchmark vast voor de medische AI-gemeenschap, waardoor objectieve en reproduceerbare vergelijkingen mogelijk worden en een naadloze integratie van zowel bestaande als toekomstige generatieve modellen wordt gefaciliteerd. Daarnaast publiceren we een hoogwaardige synthetische dataset, SynthCheX-75K, bestaande uit 75K radiografieën gegenereerd door het best presterende model (Sana 0.6B) in onze benchmark, om verder onderzoek in dit kritieke domein te ondersteunen. Met CheXGenBench vestigen we een nieuwe state-of-the-art en maken we ons kader, modellen en de SynthCheX-75K dataset beschikbaar op https://raman1121.github.io/CheXGenBench/.
English
We introduce CheXGenBench, a rigorous and multifaceted evaluation framework
for synthetic chest radiograph generation that simultaneously assesses
fidelity, privacy risks, and clinical utility across state-of-the-art
text-to-image generative models. Despite rapid advancements in generative AI
for real-world imagery, medical domain evaluations have been hindered by
methodological inconsistencies, outdated architectural comparisons, and
disconnected assessment criteria that rarely address the practical clinical
value of synthetic samples. CheXGenBench overcomes these limitations through
standardised data partitioning and a unified evaluation protocol comprising
over 20 quantitative metrics that systematically analyse generation quality,
potential privacy vulnerabilities, and downstream clinical applicability across
11 leading text-to-image architectures. Our results reveal critical
inefficiencies in the existing evaluation protocols, particularly in assessing
generative fidelity, leading to inconsistent and uninformative comparisons. Our
framework establishes a standardised benchmark for the medical AI community,
enabling objective and reproducible comparisons while facilitating seamless
integration of both existing and future generative models. Additionally, we
release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K
radiographs generated by the top-performing model (Sana 0.6B) in our benchmark
to support further research in this critical domain. Through CheXGenBench, we
establish a new state-of-the-art and release our framework, models, and
SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/Summary
AI-Generated Summary