DyPE: 초고해상도 디퓨전을 위한 동적 위치 외삽법
DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
October 23, 2025
저자: Noam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal
cs.AI
초록
디퓨전 트랜스포머 모델은 놀라운 정확도와 디테일로 이미지를 생성할 수 있지만, 자기 주의 메커니즘이 이미지 토큰의 수에 대해 2차적으로 증가하는 복잡도를 가지기 때문에 초고해상도에서의 학습은 여전히 매우 많은 비용이 든다. 본 논문에서는 사전 학습된 디퓨전 트랜스포머가 추가적인 샘플링 비용 없이 훈련 데이터를 훨씬 초과하는 해상도에서 이미지를 합성할 수 있도록 하는 새로운 훈련 불필요 방법인 동적 위치 외삽법(DyPE)을 소개한다. DyPE는 저주파수 구조는 일찍 수렴하는 반면 고주파수는 해결에 더 많은 단계가 필요한 디퓨전 과정의 내재적인 스펙트럼 진행을 활용한다. 구체적으로 DyPE는 각 디퓨전 단계에서 모델의 위치 인코딩을 동적으로 조정하여, 그 주파수 스펙트럼이 생성 과정의 현재 단계와 일치하도록 한다. 이 접근법을 통해 FLUX를 사용하여 1,600만 화소와 같이 훈련 해상도를 크게 초과하는 해상도에서 이미지를 생성할 수 있다. 여러 벤치마크에서 DyPE는 성능을 지속적으로 향상시키고 초고해상도 이미지 생성에서 최첨단 정확도를 달성하며, 이 이점은 해상도가 높아질수록 더욱 두드러진다. 프로젝트 페이지는 https://noamissachar.github.io/DyPE/에서 확인할 수 있다.
English
Diffusion Transformer models can generate images with remarkable fidelity and
detail, yet training them at ultra-high resolutions remains extremely costly
due to the self-attention mechanism's quadratic scaling with the number of
image tokens. In this paper, we introduce Dynamic Position Extrapolation
(DyPE), a novel, training-free method that enables pre-trained diffusion
transformers to synthesize images at resolutions far beyond their training
data, with no additional sampling cost. DyPE takes advantage of the spectral
progression inherent to the diffusion process, where low-frequency structures
converge early, while high-frequencies take more steps to resolve.
Specifically, DyPE dynamically adjusts the model's positional encoding at each
diffusion step, matching their frequency spectrum with the current stage of the
generative process. This approach allows us to generate images at resolutions
that exceed the training resolution dramatically, e.g., 16 million pixels using
FLUX. On multiple benchmarks, DyPE consistently improves performance and
achieves state-of-the-art fidelity in ultra-high-resolution image generation,
with gains becoming even more pronounced at higher resolutions. Project page is
available at https://noamissachar.github.io/DyPE/.