ChatPaper.aiChatPaper

DiP: ピクセル空間における拡散モデルの制御

DiP: Taming Diffusion Models in Pixel Space

November 24, 2025
著者: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Xiaobin Hu, Hanzhen Zhao, Chengjie Wang, Jian Yang, Ying Tai
cs.AI

要旨

拡散モデルは、生成品質と計算効率の間で本質的なトレードオフに直面している。潜在拡散モデル(LDM)は効率的な解決策を提供するが、情報損失の可能性と非エンドツーエンド学習という課題を抱える。一方、既存のピクセル空間モデルはVAEを回避するが、高解像度合成には計算コストが過大となる。この課題を解決するため、我々は効率的なピクセル空間拡散フレームワーク「DiP」を提案する。DiPは生成プロセスを大域段階と局所段階に分離する:Diffusion Transformer(DiT)バックボーンが大規模パッチを処理して効率的な大域構造構築を行い、同時学習される軽量なPatch Detailer Headが文脈特徴を活用して細粒度の局所詳細を復元する。この協調的設計により、VAEに依存することなくLDMに匹敵する計算効率を実現する。DiPは従来手法比最大10倍の高速推論を達成し、パラメータ総数はわずか0.3%の増加に抑えられ、ImageNet 256×256で1.79のFIDスコアを達成した。
English
Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10times faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256times256.
PDF181December 2, 2025