Один маленький шаг в латентном пространстве, один гигантский скачок для пикселей: быстрый адаптер для масштабирования латентных представлений в ваших диффузионных моделях
One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models
November 13, 2025
Авторы: Aleksandr Razin, Danil Kazantsev, Ilya Makarov
cs.AI
Аннотация
Модели диффузии сталкиваются с трудностями при масштабировании за пределы их обучающих разрешений, поскольку прямое сэмплирование в высоком разрешении является медленным и затратным, а постобработка изображений с использованием методов супер-разрешения (ISR) вносит артефакты и дополнительную задержку, работая после декодирования. Мы представляем Latent Upscaler Adapter (LUA) — легковесный модуль, который выполняет супер-разрешение непосредственно на латентном коде генератора перед финальным шагом декодирования VAE. LUA интегрируется как встраиваемый компонент, не требуя модификаций базовой модели или дополнительных этапов диффузии, и позволяет синтезировать изображения в высоком разрешении за один прямой проход в латентном пространстве. Общая архитектура на основе Swin с масштабно-специфичными головками pixel-shuffle поддерживает коэффициенты увеличения 2x и 4x и остается совместимой с базовыми методами супер-разрешения в пространстве изображений, достигая сопоставимого перцептивного качества при почти в 3 раза меньшем времени декодирования и масштабирования (добавляя всего +0,42 с для генерации изображения 1024 px из 512 px по сравнению с 1,87 с для супер-разрешения в пространстве пикселей с использованием той же архитектуры SwinIR). Более того, LUA демонстрирует сильную обобщаемость в латентных пространствах различных VAE, что упрощает его внедрение без необходимости переобучения с нуля для каждого нового декодера. Многочисленные эксперименты показывают, что LUA близко соответствует точности нативной генерации в высоком разрешении, предлагая практичный и эффективный путь к масштабируемому синтезу высококачественных изображений в современных конвейерах диффузии.
English
Diffusion models struggle to scale beyond their training resolutions, as direct high-resolution sampling is slow and costly, while post-hoc image super-resolution (ISR) introduces artifacts and additional latency by operating after decoding. We present the Latent Upscaler Adapter (LUA), a lightweight module that performs super-resolution directly on the generator's latent code before the final VAE decoding step. LUA integrates as a drop-in component, requiring no modifications to the base model or additional diffusion stages, and enables high-resolution synthesis through a single feed-forward pass in latent space. A shared Swin-style backbone with scale-specific pixel-shuffle heads supports 2x and 4x factors and remains compatible with image-space SR baselines, achieving comparable perceptual quality with nearly 3x lower decoding and upscaling time (adding only +0.42 s for 1024 px generation from 512 px, compared to 1.87 s for pixel-space SR using the same SwinIR architecture). Furthermore, LUA shows strong generalization across the latent spaces of different VAEs, making it easy to deploy without retraining from scratch for each new decoder. Extensive experiments demonstrate that LUA closely matches the fidelity of native high-resolution generation while offering a practical and efficient path to scalable, high-fidelity image synthesis in modern diffusion pipelines.