CheXGenBench: Ein einheitlicher Benchmark für die Authentizität, den Datenschutz und die Nutzbarkeit synthetischer Thorax-Röntgenaufnahmen
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs
May 15, 2025
Autoren: Raman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales
cs.AI
Zusammenfassung
Wir stellen CheXGenBench vor, ein rigoroses und vielseitiges Evaluierungsframework für die synthetische Erzeugung von Thorax-Röntgenbildern, das gleichzeitig die Bildtreue, Datenschutzrisiken und klinische Nützlichkeit über state-of-the-art Text-zu-Bild-Generierungsmodelle hinweg bewertet. Trotz rasanter Fortschritte in der generativen KI für reale Bilddaten wurden Evaluierungen im medizinischen Bereich durch methodische Inkonsistenzen, veraltete Architekturvergleiche und getrennte Bewertungskriterien behindert, die selten den praktischen klinischen Wert synthetischer Proben berücksichtigen. CheXGenBench überwindet diese Einschränkungen durch standardisierte Datenpartitionierung und ein einheitliches Evaluierungsprotokoll, das über 20 quantitative Metriken umfasst, welche die Generierungsqualität, potenzielle Datenschutzschwachstellen und die klinische Anwendbarkeit in nachgelagerten Prozessen systematisch über 11 führende Text-zu-Bild-Architekturen analysieren. Unsere Ergebnisse zeigen kritische Ineffizienzen in den bestehenden Evaluierungsprotokollen auf, insbesondere bei der Bewertung der generativen Bildtreue, was zu inkonsistenten und wenig aussagekräftigen Vergleichen führt. Unser Framework etabliert einen standardisierten Benchmark für die medizinische KI-Community, der objektive und reproduzierbare Vergleiche ermöglicht und die nahtlose Integration sowohl bestehender als auch zukünftiger Generierungsmodelle erleichtert. Zusätzlich veröffentlichen wir einen hochwertigen, synthetischen Datensatz, SynthCheX-75K, der 75.000 Röntgenbilder umfasst, die von dem leistungsstärksten Modell (Sana 0.6B) in unserem Benchmark generiert wurden, um weitere Forschungen in diesem kritischen Bereich zu unterstützen. Durch CheXGenBench setzen wir einen neuen State-of-the-art und veröffentlichen unser Framework, Modelle und den SynthCheX-75K-Datensatz unter https://raman1121.github.io/CheXGenBench/.
English
We introduce CheXGenBench, a rigorous and multifaceted evaluation framework
for synthetic chest radiograph generation that simultaneously assesses
fidelity, privacy risks, and clinical utility across state-of-the-art
text-to-image generative models. Despite rapid advancements in generative AI
for real-world imagery, medical domain evaluations have been hindered by
methodological inconsistencies, outdated architectural comparisons, and
disconnected assessment criteria that rarely address the practical clinical
value of synthetic samples. CheXGenBench overcomes these limitations through
standardised data partitioning and a unified evaluation protocol comprising
over 20 quantitative metrics that systematically analyse generation quality,
potential privacy vulnerabilities, and downstream clinical applicability across
11 leading text-to-image architectures. Our results reveal critical
inefficiencies in the existing evaluation protocols, particularly in assessing
generative fidelity, leading to inconsistent and uninformative comparisons. Our
framework establishes a standardised benchmark for the medical AI community,
enabling objective and reproducible comparisons while facilitating seamless
integration of both existing and future generative models. Additionally, we
release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K
radiographs generated by the top-performing model (Sana 0.6B) in our benchmark
to support further research in this critical domain. Through CheXGenBench, we
establish a new state-of-the-art and release our framework, models, and
SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/Summary
AI-Generated Summary