Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели диффузии сталкиваются с трудностями при масштабировании за пределы их обучающих разрешений, поскольку прямое сэмплирование в высоком разрешении является медленным и затратным, а постобработка изображений с использованием методов супер-разрешения (ISR) вносит артефакты и дополнительную задержку, работая после декодирования. Мы представляем Latent Upscaler Adapter (LUA) — легковесный модуль, который выполняет супер-разрешение непосредственно на латентном коде генератора перед финальным шагом декодирования VAE. LUA интегрируется как встраиваемый компонент, не требуя модификаций базовой модели или дополнительных этапов диффузии, и позволяет синтезировать изображения в высоком разрешении за один прямой проход в латентном пространстве. Общая архитектура на основе Swin с масштабно-специфичными головками pixel-shuffle поддерживает коэффициенты увеличения 2x и 4x и остается совместимой с базовыми методами супер-разрешения в пространстве изображений, достигая сопоставимого перцептивного качества при почти в 3 раза меньшем времени декодирования и масштабирования (добавляя всего +0,42 с для генерации изображения 1024 px из 512 px по сравнению с 1,87 с для супер-разрешения в пространстве пикселей с использованием той же архитектуры SwinIR). Более того, LUA демонстрирует сильную обобщаемость в латентных пространствах различных VAE, что упрощает его внедрение без необходимости переобучения с нуля для каждого нового декодера. Многочисленные эксперименты показывают, что LUA близко соответствует точности нативной генерации в высоком разрешении, предлагая практичный и эффективный путь к масштабируемому синтезу высококачественных изображений в современных конвейерах диффузии.