CheXGenBench: 합성 흉부 X선 영상의 충실도, 프라이버시 및 유용성을 위한 통합 벤치마크
CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs
May 15, 2025
저자: Raman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales
cs.AI
초록
본 논문에서는 합성 흉부 방사선 사진 생성을 위한 엄격하고 다각적인 평가 프레임워크인 CheXGenBench를 소개한다. 이 프레임워크는 최신 텍스트-이미지 생성 모델을 대상으로 충실도, 프라이버시 위험, 그리고 임상적 유용성을 동시에 평가한다. 실세계 이미지 생성을 위한 생성형 AI의 급속한 발전에도 불구하고, 의료 분야의 평가는 방법론적 불일치, 구식 아키텍처 비교, 그리고 합성 샘플의 실질적인 임상적 가치를 거의 다루지 않는 단절된 평가 기준으로 인해 지체되어 왔다. CheXGenBench는 표준화된 데이터 분할과 20개 이상의 정량적 지표로 구성된 통합 평가 프로토콜을 통해 이러한 한계를 극복하며, 11개의 주요 텍스트-이미지 아키텍처를 대상으로 생성 품질, 잠재적 프라이버시 취약점, 그리고 하위 임상 적용 가능성을 체계적으로 분석한다. 우리의 결과는 특히 생성 충실도 평가에서 기존 평가 프로토콜의 중요한 비효율성을 드러내며, 이로 인해 일관성 없고 정보가 부족한 비교가 이루어지고 있음을 보여준다. 본 프레임워크는 의료 AI 커뮤니티를 위한 표준화된 벤치마크를 확립함으로써 객관적이고 재현 가능한 비교를 가능하게 하며, 기존 및 미래의 생성 모델의 원활한 통합을 촉진한다. 또한, 우리는 벤치마크에서 최고 성능을 보인 모델(Sana 0.6B)로 생성된 75,000개의 방사선 사진으로 구성된 고품질 합성 데이터셋인 SynthCheX-75K를 공개하여 이 중요한 분야의 추가 연구를 지원한다. CheXGenBench를 통해 우리는 새로운 최첨단 기술을 확립하고, 프레임워크, 모델, 그리고 SynthCheX-75K 데이터셋을 https://raman1121.github.io/CheXGenBench/에서 공개한다.
English
We introduce CheXGenBench, a rigorous and multifaceted evaluation framework
for synthetic chest radiograph generation that simultaneously assesses
fidelity, privacy risks, and clinical utility across state-of-the-art
text-to-image generative models. Despite rapid advancements in generative AI
for real-world imagery, medical domain evaluations have been hindered by
methodological inconsistencies, outdated architectural comparisons, and
disconnected assessment criteria that rarely address the practical clinical
value of synthetic samples. CheXGenBench overcomes these limitations through
standardised data partitioning and a unified evaluation protocol comprising
over 20 quantitative metrics that systematically analyse generation quality,
potential privacy vulnerabilities, and downstream clinical applicability across
11 leading text-to-image architectures. Our results reveal critical
inefficiencies in the existing evaluation protocols, particularly in assessing
generative fidelity, leading to inconsistent and uninformative comparisons. Our
framework establishes a standardised benchmark for the medical AI community,
enabling objective and reproducible comparisons while facilitating seamless
integration of both existing and future generative models. Additionally, we
release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K
radiographs generated by the top-performing model (Sana 0.6B) in our benchmark
to support further research in this critical domain. Through CheXGenBench, we
establish a new state-of-the-art and release our framework, models, and
SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/Summary
AI-Generated Summary