ChatPaper.aiChatPaper

DyPE: Extrapolação Dinâmica de Posição para Difusão em Ultra Alta Resolução

DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion

October 23, 2025
Autores: Noam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal
cs.AI

Resumo

Os modelos Diffusion Transformer podem gerar imagens com fidelidade e detalhes notáveis, mas o seu treinamento em resoluções ultra-altas permanece extremamente custoso devido à escala quadrática do mecanismo de self-attention com o número de tokens de imagem. Neste artigo, introduzimos a Extrapolação Dinâmica de Posição (DyPE), um método novo e livre de treinamento que permite que transformers de difusão pré-treinados sintetizem imagens em resoluções muito superiores aos seus dados de treinamento, sem custos adicionais de amostragem. A DyPE aproveita a progressão espectral inerente ao processo de difusão, onde as estruturas de baixa frequência convergem precocemente, enquanto as altas frequências exigem mais passos para se resolverem. Especificamente, a DyPE ajusta dinamicamente a codificação posicional do modelo em cada passo de difusão, correspondendo o seu espectro de frequência com a fase atual do processo generativo. Esta abordagem permite-nos gerar imagens em resoluções que excedem dramaticamente a resolução de treinamento, por exemplo, 16 milhões de pixels usando FLUX. Em múltiplos benchmarks, a DyPE melhora consistentemente o desempenho e alcança fidelidade state-of-the-art na geração de imagens de ultra-alta resolução, com ganhos que se tornam ainda mais pronunciados em resoluções mais elevadas. A página do projeto está disponível em https://noamissachar.github.io/DyPE/.
English
Diffusion Transformer models can generate images with remarkable fidelity and detail, yet training them at ultra-high resolutions remains extremely costly due to the self-attention mechanism's quadratic scaling with the number of image tokens. In this paper, we introduce Dynamic Position Extrapolation (DyPE), a novel, training-free method that enables pre-trained diffusion transformers to synthesize images at resolutions far beyond their training data, with no additional sampling cost. DyPE takes advantage of the spectral progression inherent to the diffusion process, where low-frequency structures converge early, while high-frequencies take more steps to resolve. Specifically, DyPE dynamically adjusts the model's positional encoding at each diffusion step, matching their frequency spectrum with the current stage of the generative process. This approach allows us to generate images at resolutions that exceed the training resolution dramatically, e.g., 16 million pixels using FLUX. On multiple benchmarks, DyPE consistently improves performance and achieves state-of-the-art fidelity in ultra-high-resolution image generation, with gains becoming even more pronounced at higher resolutions. Project page is available at https://noamissachar.github.io/DyPE/.
PDF343December 2, 2025