PixelGen: Pixel-Diffusion übertrifft latente Diffusion mit Perzeptuellem Verlust

Zusammenfassung

Die Pixeldiffusion erzeugt Bilder direkt im Pixelraum auf end-to-end Weise und vermeidet dadurch die Artefakte und Engpässe, die durch VAEs in zweistufiger latenter Diffusion eingeführt werden. Allerdings ist es herausfordernd, hochdimensionale Pixelmannigfaltigkeiten zu optimieren, die viele perceptuell irrelevante Signale enthalten, weshalb bestehende Pixeldiffusionsmethoden hinter latenten Diffusionsmodellen zurückbleiben. Wir schlagen PixelGen vor, ein einfaches Pixeldiffusionsframework mit perceptueller Überwachung. Anstatt die vollständige Bildmannigfaltigkeit zu modellieren, führt PixelGen zwei komplementäre perceptuelle Verluste ein, um das Diffusionsmodell dabei anzuleiten, eine bedeutungsvollere perceptuelle Mannigfaltigkeit zu erlernen. Ein LPIPS-Verlust erleichtert das Erlernen besserer lokaler Muster, während ein auf DINO basierender perceptueller Verlust die globale Semantik stärkt. Durch die perceptuelle Überwachung übertrifft PixelGen starke latente Diffusions-Baselines. Es erreicht einen FID von 5,11 auf ImageNet-256 ohne Classifier-Free Guidance bei nur 80 Trainingsepochen und zeigt eine günstige Skalierungsleistung bei großskaliger Text-zu-Bild-Generierung mit einem GenEval-Score von 0,79. PixelGen benötigt weder VAEs noch latente Repräsentationen oder Hilfsstufen und bietet somit ein einfacheres, aber leistungsfähigeres generatives Paradigma. Codes sind öffentlich verfügbar unter https://github.com/Zehong-Ma/PixelGen.

English

Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.

PixelGen: Pixel-Diffusion übertrifft latente Diffusion mit Perzeptuellem Verlust

PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

Zusammenfassung

Support