Всё на каждом масштабе: масштабно-инвариантная диффузия с непрерывным сверхразрешением

Аннотация

Создание изображений из шума — это генерация изображений; восстановление мелких деталей по грубым входным данным — это суперразрешение. Несмотря на практические различия, оба процесса можно понимать как обращение потери информации на разных масштабах. Мы представляем SKILD — масштабно-инвариантную диффузионную модель обучения изображений в K-пространстве (Scale-invariant K-Space Image Learning Diffusion model), которая объединяет генерацию и непрерывное суперразрешение в едином безусловном фреймворке. Как естественные изображения, так и критические физические системы проявляют масштабную инвариантность, и мы используем это для разработки прямого процесса, который ослабляет содержимое изображения от мелких к крупным масштабам, одновременно впрыскивая согласованный по спектру гауссовский шум, делая масштаб явной координатой диффузионной динамики. Тот же обученный обратный процесс выполняет генерацию и непрерывное суперразрешение, изменяя только начальный временной шаг: без архитектуры, специфичной для задачи, без ветви обусловливания, без управления без классификатора (classifier-free guidance), без переобучения для каждого коэффициента масштабирования. Эмпирически SKILD достигает FID 2,65 и индекса Инцепции (Inception Score) 9,63 на безусловном CIFAR-10, выполняет суперразрешение с коэффициентами от 2× до 8× на ImageNet с использованием единственной безусловной контрольной точки, превосходя при этом условные модели по перцептивным метрикам, и реконструирует критические модели Изинга, чьи связанные четырехточечные корреляционные функции точно соответствуют истинным значениям.

English

Creating images from noise is image generation; reconstructing fine details from coarse inputs is super-resolution. Despite their practical differences, both can be understood as reversing information loss across scales. We introduce SKILD, a Scale-invariant K-Space Image Learning Diffusion model that unifies generation and continuous super-resolution within a single unconditional framework. Both natural images and critical physical systems exhibit scale invariance, and we leverage it to design a forward process that attenuates image content from fine to coarse scales while injecting spectrum-matched Gaussian noise, making scale an explicit coordinate of the diffusion dynamics. The same trained reverse process performs generation and continuous super-resolution by varying only the starting timestep: no task-specific architecture, no conditioning branch, no classifier-free guidance, no retraining per scale factor. Empirically, SKILD reaches FID 2.65 and Inception Score 9.63 on unconditional CIFAR-10, performs 2times--8times super-resolution on ImageNet from a single unconditional checkpoint while outperforming conditional models across perceptual metrics, and reconstructs critical Ising models whose connected four-point correlations closely track the ground truth.