DyPE: Dynamische Positionsextrapolation für Ultrahochauflösungs-Diffusion

papers.abstract

Diffusion-Transformer-Modelle können Bilder mit bemerkenswerter Treue und Detailgenauigkeit erzeugen, doch das Training bei ultrahohen Auflösungen bleibt aufgrund der quadratischen Skalierung des Self-Attention-Mechanismus mit der Anzahl der Bild-Token extrem kostspielig. In diesem Artikel stellen wir Dynamic Position Extrapolation (DyPE) vor, eine neuartige, trainingsfreie Methode, die vortrainierten Diffusion-Transformer-Modellen ermöglicht, Bilder in Auflösungen weit jenseits ihrer Trainingsdaten ohne zusätzliche Sampling-Kosten zu synthetisieren. DyPE nutzt den dem Diffusionsprozess innewohnenden spektralen Verlauf aus, bei dem sich niederfrequente Strukturen früh konsolidieren, während Hochfrequenzen mehr Schritte zur Ausprägung benötigen. Konkret passt DyPE die Positionskodierung des Modells dynamisch an jedem Diffusionsschritt an, indem es deren Frequenzspektrum mit der aktuellen Phase des Generierungsprozesses abstimmt. Dieser Ansatz ermöglicht es uns, Bilder in Auflösungen zu erzeugen, die die Trainingsauflösung dramatisch übertreffen, z.B. 16 Millionen Pixel mit FLUX. Auf mehreren Benchmarks verbessert DyPE durchgängig die Leistung und erreicht state-of-the-art Bildtreue bei der Ultrahochauflösungs-Bildgenerierung, wobei die Gewinne bei höheren Auflösungen noch deutlicher werden. Die Projektseite ist unter https://noamissachar.github.io/DyPE/ verfügbar.

English

Diffusion Transformer models can generate images with remarkable fidelity and detail, yet training them at ultra-high resolutions remains extremely costly due to the self-attention mechanism's quadratic scaling with the number of image tokens. In this paper, we introduce Dynamic Position Extrapolation (DyPE), a novel, training-free method that enables pre-trained diffusion transformers to synthesize images at resolutions far beyond their training data, with no additional sampling cost. DyPE takes advantage of the spectral progression inherent to the diffusion process, where low-frequency structures converge early, while high-frequencies take more steps to resolve. Specifically, DyPE dynamically adjusts the model's positional encoding at each diffusion step, matching their frequency spectrum with the current stage of the generative process. This approach allows us to generate images at resolutions that exceed the training resolution dramatically, e.g., 16 million pixels using FLUX. On multiple benchmarks, DyPE consistently improves performance and achieves state-of-the-art fidelity in ultra-high-resolution image generation, with gains becoming even more pronounced at higher resolutions. Project page is available at https://noamissachar.github.io/DyPE/.

DyPE: Dynamische Positionsextrapolation für Ultrahochauflösungs-Diffusion

DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion

papers.abstract

Support