ChatPaper.aiChatPaper

DeCo: Frequenzentkoppelte Pixel-Diffusion für End-to-End-Bildgenerierung

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

November 24, 2025
papers.authors: Zehong Ma, Longhui Wei, Shuai Wang, Shiliang Zhang, Qi Tian
cs.AI

papers.abstract

Die Pixel-Diffusion zielt darauf ab, Bilder direkt im Pixelraum auf end-to-end Weise zu erzeugen. Dieser Ansatz umgeht die Einschränkungen von VAEs bei der zweistufigen latenten Diffusion und bietet eine höhere Modellkapazität. Bestehende Pixel-Diffusionsmodelle leiden unter langsamen Trainings- und Inferenzzeiten, da sie üblicherweise sowohl hochfrequente Signale als auch niederfrequente Semantik innerhalb eines einzigen Diffusions-Transformers (DiT) modellieren. Um ein effizienteres Paradigma der Pixel-Diffusion zu verfolgen, schlagen wir den frequenzentkoppelten Pixel-Diffusionsframework vor. Ausgehend von der Intuition, die Erzeugung hoch- und niederfrequenter Komponenten zu entkoppeln, nutzen wir einen leistungsarmen Pixel-Decoder, um hochfrequente Details auf der Grundlage semantischer Vorgaben des DiT zu generieren. Dadurch wird der DiT entlastet und kann sich auf die Modellierung niederfrequenter Semantik spezialisieren. Zusätzlich führen wir einen frequenzbewussten Flow-Matching-Verlust ein, der visuell salienten Frequenzen betont und unbedeutende unterdrückt. Umfangreiche Experimente zeigen, dass DeCo eine überlegene Leistung unter Pixel-Diffusionsmodellen erzielt und auf ImageNet einen FID von 1,62 (256x256) bzw. 2,22 (512x512) erreicht, wodurch die Lücke zu latenten Diffusionsmethoden geschlossen wird. Darüber hinaus erzielt unser vortrainiertes Text-zu-Bild-Modell im systemweiten Vergleich auf GenEval einen führenden Gesamtscore von 0,86. Der Code ist öffentlich verfügbar unter https://github.com/Zehong-Ma/DeCo.
English
Pixel diffusion aims to generate images directly in pixel space in an end-to-end fashion. This approach avoids the limitations of VAE in the two-stage latent diffusion, offering higher model capacity. Existing pixel diffusion models suffer from slow training and inference, as they usually model both high-frequency signals and low-frequency semantics within a single diffusion transformer (DiT). To pursue a more efficient pixel diffusion paradigm, we propose the frequency-DeCoupled pixel diffusion framework. With the intuition to decouple the generation of high and low frequency components, we leverage a lightweight pixel decoder to generate high-frequency details conditioned on semantic guidance from the DiT. This thus frees the DiT to specialize in modeling low-frequency semantics. In addition, we introduce a frequency-aware flow-matching loss that emphasizes visually salient frequencies while suppressing insignificant ones. Extensive experiments show that DeCo achieves superior performance among pixel diffusion models, attaining FID of 1.62 (256x256) and 2.22 (512x512) on ImageNet, closing the gap with latent diffusion methods. Furthermore, our pretrained text-to-image model achieves a leading overall score of 0.86 on GenEval in system-level comparison. Codes are publicly available at https://github.com/Zehong-Ma/DeCo.
PDF643February 7, 2026