ChatPaper.aiChatPaper

DiP: Het temmen van diffusiemodellen in pixelruimte

DiP: Taming Diffusion Models in Pixel Space

November 24, 2025
Auteurs: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Xiaobin Hu, Hanzhen Zhao, Chengjie Wang, Jian Yang, Ying Tai
cs.AI

Samenvatting

Diffusiemodellen worden geconfronteerd met een fundamentele afweging tussen generatiekwaliteit en computationele efficiëntie. Latente Diffusiemodellen (LDM's) bieden een efficiënte oplossing, maar lijden onder mogelijk informatieverlies en niet-end-to-end training. Bestaande modellen in de pixelruimte omzeilen daarentegen VAE's, maar zijn computationeel onhaalbaar voor hoogwaardige synthese op hoge resolutie. Om dit dilemma op te lossen, stellen we DiP voor, een efficiënt diffusieraamwerk in de pixelruimte. DiP ontkoppelt de generatie in een globale en een lokale fase: een Diffusion Transformer (DiT)-backbone werkt op grote patches voor efficiënte globale structuurconstructie, terwijl een meegetrainde lichtgewicht Patch Detailer Head contextuele kenmerken benut om fijnmazige lokale details te herstellen. Dit synergetische ontwerp bereikt een computationele efficiëntie vergelijkbaar met LDM's zonder afhankelijk te zijn van een VAE. DiP realiseert tot 10 keer snellere inferentiesnelheden dan vorige methoden, waarbij het totale aantal parameters met slechts 0,3% toeneemt, en behaalt een FID-score van 1,79 op ImageNet 256×256.
English
Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10times faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256times256.
PDF181December 2, 2025