Representações Latentes Específicas de Domínio Melhoram a Fidelidade na Super-Resolução de Imagens Médicas Baseada em Difusão

Resumo

Os modelos de difusão latente para super-resolução de imagens médicas herdam universalmente autoencoders variacionais projetados para fotografias naturais. Demonstramos que esta escolha padrão, e não a arquitetura de difusão, é a principal restrição à qualidade da reconstrução. Num experimento controlado que manteve todos os outros componentes do *pipeline* fixos, substituir o VAE genérico do Stable Diffusion pelo MedVAE, um autoencoder específico de domínio pré-treinado em mais de 1,6 milhões de imagens médicas, resultou numa melhoria de +2,91 a +3,29 dB no PSNR em ressonância magnética de joelho, ressonância magnética cerebral e radiografia de tórax (n = 1.820; d de Cohen = 1,37 a 1,86, todos p < 10^{-20}, teste de postos sinalizados de Wilcoxon). A decomposição wavelet localiza a vantagem nas bandas de frequência espacial mais finas que codificam a estrutura fina anatomicamente relevante. Ablações realizadas em cronogramas de inferência, objetivos de predição e arquiteturas generativas confirmam que a diferença é estável dentro de ± 0,15 dB, enquanto as taxas de alucinação permanecem comparáveis entre os métodos (h de Cohen < 0,02 em todos os conjuntos de dados), estabelecendo que a fidelidade de reconstrução e a alucinação generativa são governadas por componentes independentes do *pipeline*. Estes resultados fornecem um critério prático de triagem: a qualidade de reconstrução do autoencoder, mensurável sem treino de difusão, prevê o desempenho de super-resolução a jusante (R² = 0,67), sugerindo que a seleção de VAEs específicos de domínio deve preceder a busca por arquiteturas de difusão. O código e os pesos do modelo treinado estão publicamente disponíveis em https://github.com/sebasmos/latent-sr.

English

Latent diffusion models for medical image super-resolution universally inherit variational autoencoders designed for natural photographs. We show that this default choice, not the diffusion architecture, is the dominant constraint on reconstruction quality. In a controlled experiment holding all other pipeline components fixed, replacing the generic Stable Diffusion VAE with MedVAE, a domain-specific autoencoder pretrained on more than 1.6 million medical images, yields +2.91 to +3.29 dB PSNR improvement across knee MRI, brain MRI, and chest X-ray (n = 1,820; Cohen's d = 1.37 to 1.86, all p < 10^{-20}, Wilcoxon signed-rank). Wavelet decomposition localises the advantage to the finest spatial frequency bands encoding anatomically relevant fine structure. Ablations across inference schedules, prediction targets, and generative architectures confirm the gap is stable within plus or minus 0.15 dB, while hallucination rates remain comparable between methods (Cohen's h < 0.02 across all datasets), establishing that reconstruction fidelity and generative hallucination are governed by independent pipeline components. These results provide a practical screening criterion: autoencoder reconstruction quality, measurable without diffusion training, predicts downstream SR performance (R^2 = 0.67), suggesting that domain-specific VAE selection should precede diffusion architecture search. Code and trained model weights are publicly available at https://github.com/sebasmos/latent-sr.

Representações Latentes Específicas de Domínio Melhoram a Fidelidade na Super-Resolução de Imagens Médicas Baseada em Difusão

Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution

Resumo

Support