DiP: Укрощение диффузионных моделей в пространстве пикселей
DiP: Taming Diffusion Models in Pixel Space
November 24, 2025
Авторы: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Xiaobin Hu, Hanzhen Zhao, Chengjie Wang, Jian Yang, Ying Tai
cs.AI
Аннотация
Модели диффузии сталкиваются с фундаментальным компромиссом между качеством генерации и вычислительной эффективностью. Латентные модели диффузии (LDM) предлагают эффективное решение, но страдают от потенциальной потери информации и не сквозного обучения. В отличие от них, существующие модели в пиксельном пространстве обходятся без VAEs, но становятся вычислительно неподъемными для синтеза высокого разрешения. Для разрешения этой дилеммы мы предлагаем DiP — эффективную диффузионную архитектуру в пиксельном пространстве. DiP разделяет генерацию на глобальную и локальную стадии: основа на базе диффузионного трансформера (DiT) работает с крупными патчами для эффективного построения глобальной структуры, в то время как совместно обучаемая легковесная голова детализации патчей (Patch Detailer Head) использует контекстные признаки для восстановления мелкозернистых локальных деталей. Такая синергетическая конструкция достигает вычислительной эффективности, сопоставимой с LDM, без использования VAE. DiP обеспечивает до 10-кратного ускорения вывода по сравнению с предыдущими методами при увеличении общего числа параметров всего на 0.3% и достигает показателя FID 1.79 на ImageNet 256×256.
English
Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10times faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256times256.