PixelGen: Pixeldiffusie verslaat latentiediffusie met perceptueel verlies

Samenvatting

Pixel-diffusie genereert afbeeldingen direct in de pixelruimte op een end-to-end manier, waardoor de artefacten en knelpunten vermeden worden die door VAE's worden geïntroduceerd in tweestaps latente diffusie. Het is echter een uitdaging om hoogdimensionale pixelvariëteiten te optimaliseren die veel perceptueel irrelevante signalen bevatten, waardoor bestaande pixel-diffusiemethoden achterblijven bij latente diffusiemodellen. Wij stellen PixelGen voor, een eenvoudig pixel-diffusieraamwerk met perceptueel toezicht. In plaats van de volledige beeldvariëteit te modelleren, introduceert PixelGen twee complementaire perceptuele verliezen om het diffusiemodel te leiden naar het leren van een betekenisvollere perceptuele variëteit. Een LPIPS-verlies bevordert het aanleren van betere lokale patronen, terwijl een op DINO gebaseerd perceptueel verlies de globale semantiek versterkt. Met perceptueel toezicht overstijgt PixelGen sterke latente diffusie-baselines. Het behaalt een FID van 5,11 op ImageNet-256 zonder classifier-free guidance met slechts 80 trainingsepochs, en toont gunstige schaalprestaties bij grootschalige tekst-naar-beeldgeneratie met een GenEval-score van 0,79. PixelGen vereist geen VAE's, geen latente representaties en geen hulpstadia, en biedt zo een eenvoudiger maar krachtiger generatief paradigma. Code is openbaar beschikbaar op https://github.com/Zehong-Ma/PixelGen.

English

Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.

PixelGen: Pixeldiffusie verslaat latentiediffusie met perceptueel verlies

PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

Samenvatting

Support