PixelGen: la diffusione di pixel batte la diffusione latente con perdita percettiva

Abstract

La diffusione pixel genera immagini direttamente nello spazio dei pixel in modo end-to-end, evitando gli artefatti e i colli di bottiglia introdotti dai VAE nella diffusione latente a due stadi. Tuttavia, è complesso ottimizzare le varietà pixel ad alta dimensione che contengono molti segnali percettivamente irrilevanti, facendo sì che i metodi esistenti di diffusione pixel rimangano indietro rispetto ai modelli di diffusione latente. Proponiamo PixelGen, un semplice framework di diffusione pixel con supervisione percettiva. Invece di modellare l'intera varietà dell'immagine, PixelGen introduce due loss percettivi complementari per guidare il modello di diffusione verso l'apprendimento di una varietà percettiva più significativa. Una loss LPIPS facilita l'apprendimento di pattern locali migliori, mentre una loss percettiva basata su DINO rafforza la semantica globale. Con la supervisione percettiva, PixelGen supera solidi baseline di diffusione latente. Raggiunge un FID di 5.11 su ImageNet-256 senza guida classifier-free utilizzando solo 80 epoche di addestramento, e dimostra prestazioni di scalabilità favorevoli nella generazione testo-immagine su larga scala con un punteggio GenEval di 0.79. PixelGen non richiede VAE, né rappresentazioni latenti, né stadi ausiliari, offrendo un paradigma generativo più semplice ma più potente. I codici sono pubblicamente disponibili su https://github.com/Zehong-Ma/PixelGen.

English

Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.

PixelGen: la diffusione di pixel batte la diffusione latente con perdita percettiva

PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

Abstract

Support