DyPE: Dynamische Positionsextrapolation für Ultrahochauflösungs-Diffusion
DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
October 23, 2025
papers.authors: Noam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal
cs.AI
papers.abstract
Diffusion-Transformer-Modelle können Bilder mit bemerkenswerter Treue und Detailgenauigkeit erzeugen, doch das Training bei ultrahohen Auflösungen bleibt aufgrund der quadratischen Skalierung des Self-Attention-Mechanismus mit der Anzahl der Bild-Token extrem kostspielig. In diesem Artikel stellen wir Dynamic Position Extrapolation (DyPE) vor, eine neuartige, trainingsfreie Methode, die vortrainierten Diffusion-Transformer-Modellen ermöglicht, Bilder in Auflösungen weit jenseits ihrer Trainingsdaten ohne zusätzliche Sampling-Kosten zu synthetisieren. DyPE nutzt den dem Diffusionsprozess innewohnenden spektralen Verlauf aus, bei dem sich niederfrequente Strukturen früh konsolidieren, während Hochfrequenzen mehr Schritte zur Ausprägung benötigen. Konkret passt DyPE die Positionskodierung des Modells dynamisch an jedem Diffusionsschritt an, indem es deren Frequenzspektrum mit der aktuellen Phase des Generierungsprozesses abstimmt. Dieser Ansatz ermöglicht es uns, Bilder in Auflösungen zu erzeugen, die die Trainingsauflösung dramatisch übertreffen, z.B. 16 Millionen Pixel mit FLUX. Auf mehreren Benchmarks verbessert DyPE durchgängig die Leistung und erreicht state-of-the-art Bildtreue bei der Ultrahochauflösungs-Bildgenerierung, wobei die Gewinne bei höheren Auflösungen noch deutlicher werden. Die Projektseite ist unter https://noamissachar.github.io/DyPE/ verfügbar.
English
Diffusion Transformer models can generate images with remarkable fidelity and
detail, yet training them at ultra-high resolutions remains extremely costly
due to the self-attention mechanism's quadratic scaling with the number of
image tokens. In this paper, we introduce Dynamic Position Extrapolation
(DyPE), a novel, training-free method that enables pre-trained diffusion
transformers to synthesize images at resolutions far beyond their training
data, with no additional sampling cost. DyPE takes advantage of the spectral
progression inherent to the diffusion process, where low-frequency structures
converge early, while high-frequencies take more steps to resolve.
Specifically, DyPE dynamically adjusts the model's positional encoding at each
diffusion step, matching their frequency spectrum with the current stage of the
generative process. This approach allows us to generate images at resolutions
that exceed the training resolution dramatically, e.g., 16 million pixels using
FLUX. On multiple benchmarks, DyPE consistently improves performance and
achieves state-of-the-art fidelity in ultra-high-resolution image generation,
with gains becoming even more pronounced at higher resolutions. Project page is
available at https://noamissachar.github.io/DyPE/.