DeCo: Diffusione Pixel a Frequenze Disaccoppiate per la Generazione di Immagini End-to-End
DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation
November 24, 2025
Autori: Zehong Ma, Longhui Wei, Shuai Wang, Shiliang Zhang, Qi Tian
cs.AI
Abstract
La diffusione pixel mira a generare immagini direttamente nello spazio dei pixel in modo end-to-end. Questo approccio evita le limitazioni del VAE nella diffusione latente a due stadi, offrendo una maggiore capacità del modello. I modelli di diffusione pixel esistenti soffrono di addestramento e inferenza lenti, poiché di solito modellano sia i segnali ad alta frequenza che la semantica a bassa frequenza all'interno di un unico transformer di diffusione (DiT). Per perseguire un paradigma di diffusione pixel più efficiente, proponiamo il framework di diffusione pixel a frequenza disaccoppiata (DeCo). Sfruttando l'intuizione di disaccoppiare la generazione delle componenti ad alta e bassa frequenza, utilizziamo un decoder pixel leggero per generare dettagli ad alta frequenza condizionati dalla guida semantica del DiT. In questo modo il DiT viene liberato per specializzarsi nella modellazione della semantica a bassa frequenza. Inoltre, introduciamo una loss di flow-matching sensibile alla frequenza che enfatizza le frequenze visivamente salienti sopprimendo quelle insignificanti. Esperimenti estensivi mostrano che DeCo raggiunge prestazioni superiori tra i modelli di diffusione pixel, ottenendo un FID di 1.62 (256x256) e 2.22 (512x512) su ImageNet, colmando il divario con i metodi di diffusione latente. Inoltre, il nostro modello preaddestrato text-to-image raggiunge un punteggio complessivo leader di 0.86 su GenEval nel confronto a livello di sistema. I codici sono pubblicamente disponibili su https://github.com/Zehong-Ma/DeCo.
English
Pixel diffusion aims to generate images directly in pixel space in an end-to-end fashion. This approach avoids the limitations of VAE in the two-stage latent diffusion, offering higher model capacity. Existing pixel diffusion models suffer from slow training and inference, as they usually model both high-frequency signals and low-frequency semantics within a single diffusion transformer (DiT). To pursue a more efficient pixel diffusion paradigm, we propose the frequency-DeCoupled pixel diffusion framework. With the intuition to decouple the generation of high and low frequency components, we leverage a lightweight pixel decoder to generate high-frequency details conditioned on semantic guidance from the DiT. This thus frees the DiT to specialize in modeling low-frequency semantics. In addition, we introduce a frequency-aware flow-matching loss that emphasizes visually salient frequencies while suppressing insignificant ones. Extensive experiments show that DeCo achieves superior performance among pixel diffusion models, attaining FID of 1.62 (256x256) and 2.22 (512x512) on ImageNet, closing the gap with latent diffusion methods. Furthermore, our pretrained text-to-image model achieves a leading overall score of 0.86 on GenEval in system-level comparison. Codes are publicly available at https://github.com/Zehong-Ma/DeCo.