DyPE : Extrapolation Dynamique de Position pour la Diffusion en Ultra Haute Résolution
DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
October 23, 2025
papers.authors: Noam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal
cs.AI
papers.abstract
Les modèles de transformateurs de diffusion peuvent générer des images avec une fidélité et un niveau de détail remarquables. Cependant, leur entraînement à des résolutions ultra-élevées reste extrêmement coûteux en raison de la complexité quadratique du mécanisme d'auto-attention par rapport au nombre de tokens d'image. Dans cet article, nous présentons l'Extrapolation Dynamique de Position (DyPE), une nouvelle méthode, ne nécessitant pas d'entraînement, qui permet à des transformateurs de diffusion pré-entraînés de synthétiser des images à des résolutions bien supérieures à celles de leurs données d'entraînement, sans coût d'échantillonnage supplémentaire. DyPE tire parti de la progression spectrale inhérente au processus de diffusion, où les structures basse fréquence convergent tôt, tandis que les hautes fréquences nécessitent plus d'étapes pour être résolues. Concrètement, DyPE ajuste dynamiquement l'encodage positionnel du modèle à chaque étape de diffusion, en faisant correspondre son spectre de fréquence avec la phase actuelle du processus génératif. Cette approche nous permet de générer des images à des résolutions dépassant considérablement la résolution d'entraînement, par exemple, 16 millions de pixels avec FLUX. Sur plusieurs benchmarks, DyPE améliore constamment les performances et atteint une fidélité de pointe dans la génération d'images à très haute résolution, les gains devenant encore plus prononcés aux résolutions les plus élevées. La page du projet est disponible à l'adresse https://noamissachar.github.io/DyPE/.
English
Diffusion Transformer models can generate images with remarkable fidelity and
detail, yet training them at ultra-high resolutions remains extremely costly
due to the self-attention mechanism's quadratic scaling with the number of
image tokens. In this paper, we introduce Dynamic Position Extrapolation
(DyPE), a novel, training-free method that enables pre-trained diffusion
transformers to synthesize images at resolutions far beyond their training
data, with no additional sampling cost. DyPE takes advantage of the spectral
progression inherent to the diffusion process, where low-frequency structures
converge early, while high-frequencies take more steps to resolve.
Specifically, DyPE dynamically adjusts the model's positional encoding at each
diffusion step, matching their frequency spectrum with the current stage of the
generative process. This approach allows us to generate images at resolutions
that exceed the training resolution dramatically, e.g., 16 million pixels using
FLUX. On multiple benchmarks, DyPE consistently improves performance and
achieves state-of-the-art fidelity in ultra-high-resolution image generation,
with gains becoming even more pronounced at higher resolutions. Project page is
available at https://noamissachar.github.io/DyPE/.