ChatPaper.aiChatPaper

DiP: 픽셀 공간에서 확산 모델을 길들이다

DiP: Taming Diffusion Models in Pixel Space

November 24, 2025
저자: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Xiaobin Hu, Hanzhen Zhao, Chengjie Wang, Jian Yang, Ying Tai
cs.AI

초록

확산 모델은 생성 품질과 계산 효율성 사이의 근본적인 트레이드오프에 직면해 있습니다. 잠재 확산 모델(LDM)은 효율적인 해결책을 제공하지만 잠재적 정보 손실 및 비 종단 간 학습 문제가 있습니다. 반면, 기존 픽셀 공간 모델은 VAE를 우회하지만 고해상도 합성에는 계산상 부담이 큽니다. 이러한 딜레마를 해결하기 위해 우리는 효율적인 픽셀 공간 확산 프레임워크인 DiP를 제안합니다. DiP는 생성을 전역 단계와 지역 단계로 분리합니다: Diffusion Transformer(DiT) 백본은 대형 패치에서 효율적인 전역 구조 구성을 수행하는 반면, 공동 학습된 경량 패치 디테일러 헤드는 문맥적 특징을 활용하여 정교한 지역 세부 사항을 복원합니다. 이러한 시너지 설계는 VAE에 의존하지 않으면서 LDM에 버금가는 계산 효율성을 달성합니다. DiP는 기존 방법 대비 최대 10배 빠른 추론 속도를 구현하면서 총 매개변수 수는 0.3%만 증가하였으며, ImageNet 256×256에서 1.79 FID 점수를 달성했습니다.
English
Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10times faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256times256.
PDF181December 2, 2025