ChatPaper.aiChatPaper

DiP: Domando modelos de difusión en el espacio de píxeles

DiP: Taming Diffusion Models in Pixel Space

November 24, 2025
Autores: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Xiaobin Hu, Hanzhen Zhao, Chengjie Wang, Jian Yang, Ying Tai
cs.AI

Resumen

Los modelos de difusión enfrentan una disyuntiva fundamental entre la calidad de generación y la eficiencia computacional. Los Modelos de Difusión Latente (LDM) ofrecen una solución eficiente pero adolecen de una potencial pérdida de información y de un entrenamiento no extremo a extremo. En contraste, los modelos existentes en el espacio de píxeles evitan el uso de VAEs pero son computacionalmente prohibitivos para la síntesis de alta resolución. Para resolver este dilema, proponemos DiP, un marco de difusión eficiente en el espacio de píxeles. DiP desacopla la generación en una etapa global y una local: una columna vertebral de Transformador de Difusión (DiT) opera sobre parches grandes para una construcción eficiente de la estructura global, mientras que una Cabezal Detallador de Parches ligero, entrenado conjuntamente, aprovecha las características contextuales para restaurar los detalles locales finos. Este diseño sinérgico logra una eficiencia computacional comparable a la de los LDMs sin depender de un VAE. DiP se logra con velocidades de inferencia hasta 10 veces más rápidas que el método anterior mientras aumenta el número total de parámetros en solo un 0.3%, y alcanza un puntaje FID de 1.79 en ImageNet 256x256.
English
Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10times faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256times256.
PDF181December 2, 2025