DyPE: Динамическая экстраполяция позиций для диффузии в сверхвысоком разрешении
DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
October 23, 2025
Авторы: Noam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal
cs.AI
Аннотация
Модели диффузионных трансформаторов способны генерировать изображения с выдающейся точностью и детализацией, однако их обучение в сверхвысоких разрешениях остается чрезвычайно затратным из-за квадратичного масштабирования механизма самовнимания относительно количества изображений-токенов. В данной статье мы представляем Dynamic Position Extrapolation (DyPE) — новый, не требующий дообучения метод, который позволяет предварительно обученным диффузионным трансформаторам синтезировать изображения в разрешениях, значительно превышающих их обучающие данные, без дополнительных затрат на выборку. DyPE использует преимущества спектральной прогрессии, присущей диффузионному процессу, где низкочастотные структуры сходятся раньше, а высокочастотные требуют больше шагов для разрешения. В частности, DyPE динамически корректирует позиционное кодирование модели на каждом шаге диффузии, согласуя его частотный спектр с текущей стадией генеративного процесса. Этот подход позволяет генерировать изображения в разрешениях, значительно превышающих обучающее разрешение, например, 16 миллионов пикселей с использованием FLUX. На нескольких тестовых наборах DyPE стабильно улучшает производительность и достигает передовых показателей точности в генерации изображений сверхвысокого разрешения, причем выигрыш становится еще более выраженным при более высоких разрешениях. Страница проекта доступна по адресу https://noamissachar.github.io/DyPE/.
English
Diffusion Transformer models can generate images with remarkable fidelity and
detail, yet training them at ultra-high resolutions remains extremely costly
due to the self-attention mechanism's quadratic scaling with the number of
image tokens. In this paper, we introduce Dynamic Position Extrapolation
(DyPE), a novel, training-free method that enables pre-trained diffusion
transformers to synthesize images at resolutions far beyond their training
data, with no additional sampling cost. DyPE takes advantage of the spectral
progression inherent to the diffusion process, where low-frequency structures
converge early, while high-frequencies take more steps to resolve.
Specifically, DyPE dynamically adjusts the model's positional encoding at each
diffusion step, matching their frequency spectrum with the current stage of the
generative process. This approach allows us to generate images at resolutions
that exceed the training resolution dramatically, e.g., 16 million pixels using
FLUX. On multiple benchmarks, DyPE consistently improves performance and
achieves state-of-the-art fidelity in ultra-high-resolution image generation,
with gains becoming even more pronounced at higher resolutions. Project page is
available at https://noamissachar.github.io/DyPE/.