CheXGenBench: Un Benchmark Unificato per Fedeltà, Privacy e Utilità delle Radiografie Toraciche Sintetiche
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs
May 15, 2025
Autori: Raman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales
cs.AI
Abstract
Introduciamo CheXGenBench, un framework di valutazione rigoroso e multifaccettato per la generazione sintetica di radiografie toraciche che valuta simultaneamente fedeltà, rischi per la privacy e utilità clinica attraverso i modelli generativi testo-immagine più avanzati. Nonostante i rapidi progressi nell'IA generativa per immagini del mondo reale, le valutazioni nel dominio medico sono state ostacolate da inconsistenze metodologiche, confronti architetturali obsoleti e criteri di valutazione disconnessi che raramente considerano il valore clinico pratico dei campioni sintetici. CheXGenBench supera queste limitazioni attraverso una partizione standardizzata dei dati e un protocollo di valutazione unificato che comprende oltre 20 metriche quantitative, analizzando sistematicamente la qualità della generazione, le potenziali vulnerabilità della privacy e l'applicabilità clinica a valle in 11 architetture testo-immagine leader. I nostri risultati rivelano inefficienze critiche nei protocolli di valutazione esistenti, in particolare nella valutazione della fedeltà generativa, portando a confronti inconsistenti e poco informativi. Il nostro framework stabilisce un benchmark standardizzato per la comunità di IA medica, consentendo confronti oggettivi e riproducibili e facilitando l'integrazione senza soluzione di continuità sia dei modelli generativi esistenti che futuri. Inoltre, rilasciamo un dataset sintetico di alta qualità, SynthCheX-75K, composto da 75K radiografie generate dal modello con le migliori prestazioni (Sana 0.6B) nel nostro benchmark, per supportare ulteriori ricerche in questo dominio critico. Attraverso CheXGenBench, stabiliamo un nuovo stato dell'arte e rilasciamo il nostro framework, i modelli e il dataset SynthCheX-75K all'indirizzo https://raman1121.github.io/CheXGenBench/.
English
We introduce CheXGenBench, a rigorous and multifaceted evaluation framework
for synthetic chest radiograph generation that simultaneously assesses
fidelity, privacy risks, and clinical utility across state-of-the-art
text-to-image generative models. Despite rapid advancements in generative AI
for real-world imagery, medical domain evaluations have been hindered by
methodological inconsistencies, outdated architectural comparisons, and
disconnected assessment criteria that rarely address the practical clinical
value of synthetic samples. CheXGenBench overcomes these limitations through
standardised data partitioning and a unified evaluation protocol comprising
over 20 quantitative metrics that systematically analyse generation quality,
potential privacy vulnerabilities, and downstream clinical applicability across
11 leading text-to-image architectures. Our results reveal critical
inefficiencies in the existing evaluation protocols, particularly in assessing
generative fidelity, leading to inconsistent and uninformative comparisons. Our
framework establishes a standardised benchmark for the medical AI community,
enabling objective and reproducible comparisons while facilitating seamless
integration of both existing and future generative models. Additionally, we
release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K
radiographs generated by the top-performing model (Sana 0.6B) in our benchmark
to support further research in this critical domain. Through CheXGenBench, we
establish a new state-of-the-art and release our framework, models, and
SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/