ChatPaper.aiChatPaper

DeCo: 종단간 이미지 생성을 위한 주파수 분리 픽셀 확산

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

November 24, 2025
저자: Zehong Ma, Longhui Wei, Shuai Wang, Shiliang Zhang, Qi Tian
cs.AI

초록

픽셀 확산은 이미지를 픽셀 공간에서 직접 종단간 방식으로 생성하는 것을 목표로 합니다. 이 접근법은 두 단계 잠재 확산에서 VAE의 한계를 피하여 더 높은 모델 용량을 제공합니다. 기존 픽셀 확산 모델은 단일 확산 트랜스포머(DiT) 내에서 고주파 신호와 저주파 의미를 모두 모델링하므로 학습 및 추론 속도가 느린 단점이 있습니다. 보다 효율적인 픽셀 확산 패러다임을 추구하기 위해, 우리는 주파수 분리 픽셀 확산 프레임워크를 제안합니다. 고주파와 저주파 구성 요소의 생성을 분리한다는 직관에 기반하여, 우리는 DiT의 의미론적 지도를 조건으로 고주파 세부 사항을 생성하는 경량 픽셀 디코더를 활용합니다. 이를 통해 DiT는 저주파 의미 모델링에 전문화될 수 있습니다. 또한, 시각적으로 중요한 주파수는 강조하고 중요하지 않은 주파수는 억제하는 주파수 인식 흐름 매칭 손실을 도입합니다. 광범위한 실험을 통해 DeCo가 픽셀 확산 모델 중에서 우수한 성능을 달성하며, ImageNet에서 FID 1.62(256x256) 및 2.22(512x512)를 기록하여 잠재 확산 방법과의 격차를 좁히는 것을 확인했습니다. 더 나아가, 우리의 사전 학습된 텍스트-이미지 모델은 시스템 수준 비교에서 GenEval 기준 선도적인 전체 점수 0.86을 달성했습니다. 코드는 https://github.com/Zehong-Ma/DeCo에서 공개적으로 이용 가능합니다.
English
Pixel diffusion aims to generate images directly in pixel space in an end-to-end fashion. This approach avoids the limitations of VAE in the two-stage latent diffusion, offering higher model capacity. Existing pixel diffusion models suffer from slow training and inference, as they usually model both high-frequency signals and low-frequency semantics within a single diffusion transformer (DiT). To pursue a more efficient pixel diffusion paradigm, we propose the frequency-DeCoupled pixel diffusion framework. With the intuition to decouple the generation of high and low frequency components, we leverage a lightweight pixel decoder to generate high-frequency details conditioned on semantic guidance from the DiT. This thus frees the DiT to specialize in modeling low-frequency semantics. In addition, we introduce a frequency-aware flow-matching loss that emphasizes visually salient frequencies while suppressing insignificant ones. Extensive experiments show that DeCo achieves superior performance among pixel diffusion models, attaining FID of 1.62 (256x256) and 2.22 (512x512) on ImageNet, closing the gap with latent diffusion methods. Furthermore, our pretrained text-to-image model achieves a leading overall score of 0.86 on GenEval in system-level comparison. Codes are publicly available at https://github.com/Zehong-Ma/DeCo.
PDF643February 7, 2026