도메인 특화 잠재 표현이 확산 기반 의료 영상 초해상화의 정확도 향상에 미치는 영향
Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution
April 14, 2026
저자: Sebastian Cajas, Ashaba Judith, Rahul Gorijavolu, Sahil Kapadia, Hillary Clinton Kasimbazi, Leo Kinyera, Emmanuel Paul Kwesiga, Sri Sri Jaithra Varma Manthena, Luis Filipe Nakayama, Ninsiima Doreen, Leo Anthony Celi
cs.AI
초록
의료 영상 초해상화를 위한 잠재 확산 모델은 자연 영상용으로 설계된 변분 자동인코더를 보편적으로 상속합니다. 우리는 이 기본 선택이 확산 아키텍처가 아닌 재구성 품질의 주요 제약 조건임을 보여줍니다. 파이프라인의 다른 모든 구성 요소를 고정한 통제 실험에서, 일반적인 Stable Diffusion VAE를 160만 장 이상의 의료 영상으로 사전 학습된 도메인 특화 자동인코더인 MedVAE로 대체하면 무릎 MRI, 뇌 MRI, 흉부 X-선(n = 1,820) 전반에 걸쳐 PSNR이 +2.91~+3.29 dB 향상되었습니다(Cohen's d = 1.37~1.86, 모두 p < 10^{-20}, Wilcoxon 부호 순위 검정). 웨이블릿 분해는 이 이점이 해부학적으로 관련된 미세 구조를 인코딩하는 가장 높은 공간 주파수 대역에 국한됨을 보여줍니다. 추론 스케줄, 예측 대상 및 생성 아키텍처에 대한 단절 실험은 성능 격차가 ±0.15 dB 내에서 안정적임을 확인한 반면, 방법론 간 환각 생성률은 유사하게 유지되어(모든 데이터셋에서 Cohen's h < 0.02) 재구성 정확도와 생성적 환각 현상이 파이프라인의 독립적인 구성 요소에 의해 결정됨을 입증했습니다. 이러한 결과는 실용적인 선별 기준을 제시합니다: 확산 훈련 없이 측정 가능한 자동인코더 재구성 품질이 하류 초해상화 성능을 예측하며(R^2 = 0.67), 이는 확산 아키텍처 탐색에 앞서 도메인 특화 VAE 선택이 선행되어야 함을 시사합니다. 코드와 훈련된 모델 가중치는 https://github.com/sebasmos/latent-sr에서 공개되어 있습니다.
English
Latent diffusion models for medical image super-resolution universally inherit variational autoencoders designed for natural photographs. We show that this default choice, not the diffusion architecture, is the dominant constraint on reconstruction quality. In a controlled experiment holding all other pipeline components fixed, replacing the generic Stable Diffusion VAE with MedVAE, a domain-specific autoencoder pretrained on more than 1.6 million medical images, yields +2.91 to +3.29 dB PSNR improvement across knee MRI, brain MRI, and chest X-ray (n = 1,820; Cohen's d = 1.37 to 1.86, all p < 10^{-20}, Wilcoxon signed-rank). Wavelet decomposition localises the advantage to the finest spatial frequency bands encoding anatomically relevant fine structure. Ablations across inference schedules, prediction targets, and generative architectures confirm the gap is stable within plus or minus 0.15 dB, while hallucination rates remain comparable between methods (Cohen's h < 0.02 across all datasets), establishing that reconstruction fidelity and generative hallucination are governed by independent pipeline components. These results provide a practical screening criterion: autoencoder reconstruction quality, measurable without diffusion training, predicts downstream SR performance (R^2 = 0.67), suggesting that domain-specific VAE selection should precede diffusion architecture search. Code and trained model weights are publicly available at https://github.com/sebasmos/latent-sr.