DyPE: Extrapolación Dinámica de Posición para Difusión de Ultra Alta Resolución
DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
October 23, 2025
Autores: Noam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal
cs.AI
Resumen
Los modelos de difusión con transformadores pueden generar imágenes con una fidelidad y detalle notables, sin embargo, entrenarlos a resoluciones ultra-altas sigue siendo extremadamente costoso debido a la escala cuadrática del mecanismo de autoatención con el número de tokens de imagen. En este artículo, presentamos la Extrapolación Dinámica de Posición (DyPE), un método novedoso, que no requiere entrenamiento y que permite a los transformadores de difusión preentrenados sintetizar imágenes a resoluciones muy superiores a sus datos de entrenamiento, sin coste adicional de muestreo. DyPE aprovecha la progresión espectral inherente al proceso de difusión, donde las estructuras de baja frecuencia convergen temprano, mientras que las altas frecuencias requieren más pasos para resolverse. Específicamente, DyPE ajusta dinámicamente la codificación posicional del modelo en cada paso de difusión, haciendo coincidir su espectro de frecuencias con la etapa actual del proceso generativo. Este enfoque nos permite generar imágenes a resoluciones que exceden drásticamente la resolución de entrenamiento, por ejemplo, 16 millones de píxeles usando FLUX. En múltiples benchmarks, DyPE mejora consistentemente el rendimiento y logra una fidelidad de vanguardia en la generación de imágenes de ultra alta resolución, siendo las ganancias aún más pronunciadas a resoluciones más altas. La página del proyecto está disponible en https://noamissachar.github.io/DyPE/.
English
Diffusion Transformer models can generate images with remarkable fidelity and
detail, yet training them at ultra-high resolutions remains extremely costly
due to the self-attention mechanism's quadratic scaling with the number of
image tokens. In this paper, we introduce Dynamic Position Extrapolation
(DyPE), a novel, training-free method that enables pre-trained diffusion
transformers to synthesize images at resolutions far beyond their training
data, with no additional sampling cost. DyPE takes advantage of the spectral
progression inherent to the diffusion process, where low-frequency structures
converge early, while high-frequencies take more steps to resolve.
Specifically, DyPE dynamically adjusts the model's positional encoding at each
diffusion step, matching their frequency spectrum with the current stage of the
generative process. This approach allows us to generate images at resolutions
that exceed the training resolution dramatically, e.g., 16 million pixels using
FLUX. On multiple benchmarks, DyPE consistently improves performance and
achieves state-of-the-art fidelity in ultra-high-resolution image generation,
with gains becoming even more pronounced at higher resolutions. Project page is
available at https://noamissachar.github.io/DyPE/.