DiP: Dominare i Modelli di Diffusione nello Spazio dei Pixel
DiP: Taming Diffusion Models in Pixel Space
November 24, 2025
Autori: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Xiaobin Hu, Hanzhen Zhao, Chengjie Wang, Jian Yang, Ying Tai
cs.AI
Abstract
I modelli di diffusione affrontano un compromesso fondamentale tra qualità della generazione ed efficienza computazionale. I Modelli di Diffusione Latente (LDM) offrono una soluzione efficiente ma soffrono di potenziale perdita di informazioni e addestramento non end-to-end. Al contrario, i modelli esistenti nello spazio dei pixel evitano l'uso di VAE ma sono computazionalmente proibitivi per la sintesi ad alta risoluzione. Per risolvere questo dilemma, proponiamo DiP, un framework efficiente di diffusione nello spazio dei pixel. DiP dissocia la generazione in una fase globale e una locale: un'architettura principale di Diffusion Transformer (DiT) opera su patch di grandi dimensioni per una costruzione efficiente della struttura globale, mentre un leggero modulo Patch Detailer, addestrato congiuntamente, sfrutta le feature contestuali per ripristinare i dettagli locali granulari. Questo design sinergico raggiunge un'efficienza computazionale paragonabile agli LDM senza fare affidamento su un VAE. DiP si realizza con velocità di inferenza fino a 10 volte superiori rispetto ai metodi precedenti, aumentando il numero totale di parametri solo dello 0.3%, e raggiunge un punteggio FID di 1.79 su ImageNet 256x256.
English
Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10times faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256times256.