ChatPaper.aiChatPaper

DyPE: Dynamische Positie-extrapolatie voor Ultra Hoge Resolutie Diffusie

DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion

October 23, 2025
Auteurs: Noam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal
cs.AI

Samenvatting

Diffusion Transformer-modellen kunnen afbeeldingen genereren met opmerkelijke nauwkeurigheid en detail, maar het trainen ervan op ultra-hoge resoluties blijft extreem kostbaar vanwege de kwadratische schaalbaarheid van het self-attention-mechanisme met het aantal beeldtokens. In dit artikel introduceren we Dynamic Position Extrapolation (DyPE), een nieuwe, trainingsvrije methode die vooraf getrainde diffusion transformers in staat stelt om afbeeldingen te synthetiseren bij resoluties ver buiten hun trainingsbereik, zonder extra steekproefkosten. DyPE maakt gebruik van de spectrale progressie die inherent is aan het diffusieproces, waarbij laagfrequente structuren vroeg convergeren, terwijl hogere frequenties meer stappen vergen om zich te ontwikkelen. Concreet past DyPE dynamisch de positionele codering van het model aan bij elke diffusiestap, waarbij het frequentiespectrum wordt afgestemd op de huidige fase van het generatieve proces. Deze aanpak stelt ons in staat om afbeeldingen te genereren bij resoluties die de trainingsresolutie aanzienlijk overstijgen, bijvoorbeeld 16 miljoen pixels met FLUX. Op meerdere benchmarks verbetert DyPE consequent de prestaties en behaalt het state-of-the-art nauwkeurigheid bij ultra-hoge-resolutie beeldgeneratie, waarbij de winst nog duidelijker wordt bij hogere resoluties. De projectpagina is beschikbaar op https://noamissachar.github.io/DyPE/.
English
Diffusion Transformer models can generate images with remarkable fidelity and detail, yet training them at ultra-high resolutions remains extremely costly due to the self-attention mechanism's quadratic scaling with the number of image tokens. In this paper, we introduce Dynamic Position Extrapolation (DyPE), a novel, training-free method that enables pre-trained diffusion transformers to synthesize images at resolutions far beyond their training data, with no additional sampling cost. DyPE takes advantage of the spectral progression inherent to the diffusion process, where low-frequency structures converge early, while high-frequencies take more steps to resolve. Specifically, DyPE dynamically adjusts the model's positional encoding at each diffusion step, matching their frequency spectrum with the current stage of the generative process. This approach allows us to generate images at resolutions that exceed the training resolution dramatically, e.g., 16 million pixels using FLUX. On multiple benchmarks, DyPE consistently improves performance and achieves state-of-the-art fidelity in ultra-high-resolution image generation, with gains becoming even more pronounced at higher resolutions. Project page is available at https://noamissachar.github.io/DyPE/.
PDF343December 2, 2025