PixelGen: La Difusión de Píxeles Supera a la Difusión Latente con Pérdida Perceptual

Resumen

La difusión en píxeles genera imágenes directamente en el espacio de píxeles de manera integral, evitando los artefactos y cuellos de botella introducidos por los VAE en la difusión latente en dos etapas. Sin embargo, es difícil optimizar las variedades de píxeles de alta dimensión que contienen muchas señales perceptualmente irrelevantes, lo que hace que los métodos existentes de difusión en píxeles se queden atrás respecto a los modelos de difusión latente. Proponemos PixelGen, un marco simple de difusión en píxeles con supervisión perceptual. En lugar de modelar la variedad completa de la imagen, PixelGen introduce dos pérdidas perceptuales complementarias para guiar al modelo de difusión hacia el aprendizaje de una variedad perceptual más significativa. Una pérdida LPIPS facilita el aprendizaje de mejores patrones locales, mientras que una pérdida perceptual basada en DINO refuerza la semántica global. Con supervisión perceptual, PixelGen supera a sólidos modelos de referencia de difusión latente. Alcanza un FID de 5.11 en ImageNet-256 sin guía libre de clasificador utilizando solo 80 épocas de entrenamiento, y demuestra un rendimiento de escalado favorable en la generación de imágenes a partir de texto a gran escala con una puntuación GenEval de 0.79. PixelGen no requiere VAE, ni representaciones latentes, ni etapas auxiliares, ofreciendo un paradigma generativo más simple pero más potente. Los códigos están disponibles públicamente en https://github.com/Zehong-Ma/PixelGen.

English

Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.