DiP : Dompter les modèles de diffusion dans l'espace pixel
DiP: Taming Diffusion Models in Pixel Space
November 24, 2025
papers.authors: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Xiaobin Hu, Hanzhen Zhao, Chengjie Wang, Jian Yang, Ying Tai
cs.AI
papers.abstract
Les modèles de diffusion sont confrontés à un compromis fondamental entre la qualité de génération et l'efficacité computationnelle. Les modèles de diffusion latente (LDM) offrent une solution efficace mais souffrent d'une perte d'information potentielle et d'un entraînement non bout-en-bout. En revanche, les modèles existants dans l'espace pixel contournent les VAE mais deviennent prohibitifs en calcul pour la synthèse haute résolution. Pour résoudre ce dilemme, nous proposons DiP, un cadre de diffusion efficace dans l'espace pixel. DiP découple la génération en une phase globale et une phase locale : une architecture de Transformer à Diffusion (DiT) opère sur de grands patchs pour construire efficacement la structure globale, tandis qu'une tête légère de détailage de patchs, co-entraînée, exploite les caractéristiques contextuelles pour restaurer les détails locaux fins. Cette conception synergétique atteint une efficacité computationnelle comparable aux LDM sans recourir à un VAE. DiP réalise une accélération de l'inférence jusqu'à 10 fois par rapport aux méthodes précédentes, tout en n'augmentant le nombre total de paramètres que de 0,3 %, et obtient un score FID de 1,79 sur ImageNet en 256×256.
English
Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10times faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256times256.