ChatPaper.aiChatPaper

모든 스케일의 모든 것: 연속적 초해상도를 통한 스케일 불변 확산

Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution

May 25, 2026
저자: Zixin Jessie Chen, Zhuo Chen, Archer Wang, Jeff Gore, William T. Freeman, Congyue Deng, Marin Soljačić
cs.AI

초록

노이즈로부터 이미지를 생성하는 것은 이미지 생성(image generation)이며, 거친 입력으로부터 미세한 세부 사항을 재구성하는 것은 초해상도(super-resolution)이다. 실용적인 차이점에도 불구하고, 둘 다 스케일 간의 정보 손실을 역전시키는 것으로 이해될 수 있다. 우리는 생성과 연속 초해상도를 하나의 비조건부 프레임워크 내에서 통합하는 Scale-invariant K-Space Image Learning 확산 모델인 SKILD를 소개한다. 자연 이미지와 임계 물리 시스템 모두 스케일 불변성(scale invariance)을 나타내며, 우리는 이를 활용하여 미세한 스케일에서 거친 스케일로 이미지 콘텐츠를 감쇠하면서 스펙트럼이 일치하는 가우시안 노이즈를 주입하는 순방향 과정을 설계하여, 스케일을 확산 동역학의 명시적 좌표로 만든다. 동일하게 훈련된 역방향 과정은 시작 시간 단계만 변경함으로써 생성과 연속 초해상도를 수행한다: 작업별 아키텍처, 조건부 분기, 분류기 없는 안내(classifier-free guidance), 스케일 팩터당 재훈련이 필요 없다. 실험적으로, SKILD는 비조건부 CIFAR-10에서 FID 2.65와 Inception Score 9.63을 달성하고, 단일 비조건부 체크포인트로 ImageNet에서 2배–8배 초해상도를 수행하면서 지각적 지표에서 조건부 모델을 능가하며, 연결된 4점 상관 관계가 실제 값과 밀접하게 일치하는 임계 Ising 모델을 재구성한다.
English
Creating images from noise is image generation; reconstructing fine details from coarse inputs is super-resolution. Despite their practical differences, both can be understood as reversing information loss across scales. We introduce SKILD, a Scale-invariant K-Space Image Learning Diffusion model that unifies generation and continuous super-resolution within a single unconditional framework. Both natural images and critical physical systems exhibit scale invariance, and we leverage it to design a forward process that attenuates image content from fine to coarse scales while injecting spectrum-matched Gaussian noise, making scale an explicit coordinate of the diffusion dynamics. The same trained reverse process performs generation and continuous super-resolution by varying only the starting timestep: no task-specific architecture, no conditioning branch, no classifier-free guidance, no retraining per scale factor. Empirically, SKILD reaches FID 2.65 and Inception Score 9.63 on unconditional CIFAR-10, performs 2times--8times super-resolution on ImageNet from a single unconditional checkpoint while outperforming conditional models across perceptual metrics, and reconstructs critical Ising models whose connected four-point correlations closely track the ground truth.