DiP: Bändigung von Diffusionsmodellen im Pixelraum
DiP: Taming Diffusion Models in Pixel Space
November 24, 2025
papers.authors: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Xiaobin Hu, Hanzhen Zhao, Chengjie Wang, Jian Yang, Ying Tai
cs.AI
papers.abstract
Diffusionsmodelle stehen vor einem grundlegenden Zielkonflikt zwischen Erzeugungsqualität und Recheneffizienz. Latente Diffusionsmodelle (LDMs) bieten eine effiziente Lösung, leiden jedoch unter potenziellem Informationsverlust und nicht-end-to-end Training. Im Gegensatz dazu umgehen existierende Pixelraum-Modelle VAEs, sind aber für hochauflösende Synthese rechenintensiv. Um dieses Dilemma zu lösen, schlagen wir DiP vor, ein effizientes Diffusionsframework im Pixelraum. DiP entkoppelt die Erzeugung in eine globale und eine lokale Stufe: Ein Diffusion Transformer (DiT)-Rückgrat verarbeitet große Patches zur effizienten globalen Strukturerstellung, während ein mit trainierter, leichtgewichtiger Patch Detailer Head kontextuelle Merkmale nutzt, um feinkörnige lokale Details wiederherzustellen. Dieser synergetische Ansatz erreicht eine mit LDMs vergleichbare Recheneffizienz ohne Abhängigkeit von einem VAE. DiP erzielt bis zu 10-mal schnellere Inferenzgeschwindigkeiten als bisherige Methoden bei nur 0,3 % mehr Parametern und erreicht einen FID-Score von 1,79 auf ImageNet 256×256.
English
Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10times faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256times256.