ChatPaper.aiChatPaper

DyPE: 超高解像度拡散モデルのための動的位置外挿法

DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion

October 23, 2025
著者: Noam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal
cs.AI

要旨

Diffusion Transformerモデルは驚異的な忠実度と詳細さで画像を生成できるが、超高解像度でのトレーニングは、画像トークン数に対して二次関数的にスケーリングするセルフアテンション機構のため、依然として非常にコストがかかる。本論文では、事前学習済み拡散Transformerが、追加のサンプリングコストなしで、トレーニングデータをはるかに超える解像度で画像を合成できる、新しいトレーニング不要手法であるDynamic Position Extrapolation(DyPE)を提案する。DyPEは、低周波数構造が早期に収束し、高周波数は解決により多くのステップを要するという、拡散過程に固有のスペクトル進行を利用する。具体的には、DyPEは各拡散ステップでモデルの位置エンコーディングを動的に調整し、その周波数スペクトルを生成過程の現在の段階と一致させる。このアプローチにより、例えばFLUXを用いて1600万ピクセルといった、トレーニング解像度を大幅に超える解像度での画像生成が可能となる。複数のベンチマークにおいて、DyPEは一貫して性能を向上させ、超高解像度画像生成における忠実度でstate-of-the-artを達成し、その利得は解像度が高くなるほど顕著になる。プロジェクトページはhttps://noamissachar.github.io/DyPE/で利用可能。
English
Diffusion Transformer models can generate images with remarkable fidelity and detail, yet training them at ultra-high resolutions remains extremely costly due to the self-attention mechanism's quadratic scaling with the number of image tokens. In this paper, we introduce Dynamic Position Extrapolation (DyPE), a novel, training-free method that enables pre-trained diffusion transformers to synthesize images at resolutions far beyond their training data, with no additional sampling cost. DyPE takes advantage of the spectral progression inherent to the diffusion process, where low-frequency structures converge early, while high-frequencies take more steps to resolve. Specifically, DyPE dynamically adjusts the model's positional encoding at each diffusion step, matching their frequency spectrum with the current stage of the generative process. This approach allows us to generate images at resolutions that exceed the training resolution dramatically, e.g., 16 million pixels using FLUX. On multiple benchmarks, DyPE consistently improves performance and achieves state-of-the-art fidelity in ultra-high-resolution image generation, with gains becoming even more pronounced at higher resolutions. Project page is available at https://noamissachar.github.io/DyPE/.
PDF343December 2, 2025