Tudo em Todas as Escalas: Difusão Invariante à Escala com Super-Resolução Contínua

Resumo

Criar imagens a partir de ruído é geração de imagens; reconstruir detalhes finos a partir de entradas grosseiras é super-resolução. Apesar de suas diferenças práticas, ambas podem ser entendidas como reversão da perda de informação entre escalas. Apresentamos SKILD, um modelo de difusão de aprendizado de imagem no espaço K invariante à escala que unifica geração e super-resolução contínua dentro de uma única estrutura incondicional. Tanto imagens naturais quanto sistemas físicos críticos exibem invariância à escala, e a aproveitamos para projetar um processo direto que atenua o conteúdo da imagem de escalas finas a grossas enquanto injeta ruído gaussiano com espectro correspondente, tornando a escala uma coordenada explícita da dinâmica de difusão. O mesmo processo reverso treinado realiza geração e super-resolução contínua variando apenas o passo temporal inicial: sem arquitetura específica para a tarefa, sem ramificação de condicionamento, sem orientação livre de classificador, sem re-treinamento por fator de escala. Empiricamente, SKILD atinge FID 2,65 e Índice Inception 9,63 em CIFAR-10 incondicional, realiza super-resolução de 2× a 8× no ImageNet a partir de um único checkpoint incondicional, superando modelos condicionais em métricas perceptuais, e reconstrói modelos de Ising críticos cujas correlações de quatro pontos conectadas acompanham de perto a verdade fundamental.

English

Creating images from noise is image generation; reconstructing fine details from coarse inputs is super-resolution. Despite their practical differences, both can be understood as reversing information loss across scales. We introduce SKILD, a Scale-invariant K-Space Image Learning Diffusion model that unifies generation and continuous super-resolution within a single unconditional framework. Both natural images and critical physical systems exhibit scale invariance, and we leverage it to design a forward process that attenuates image content from fine to coarse scales while injecting spectrum-matched Gaussian noise, making scale an explicit coordinate of the diffusion dynamics. The same trained reverse process performs generation and continuous super-resolution by varying only the starting timestep: no task-specific architecture, no conditioning branch, no classifier-free guidance, no retraining per scale factor. Empirically, SKILD reaches FID 2.65 and Inception Score 9.63 on unconditional CIFAR-10, performs 2times--8times super-resolution on ImageNet from a single unconditional checkpoint while outperforming conditional models across perceptual metrics, and reconstructs critical Ising models whose connected four-point correlations closely track the ground truth.