PixelGen : La diffusion de pixels surpasse la diffusion latente grâce à une perte perceptuelle

Résumé

La diffusion pixel génère des images directement dans l'espace pixel de manière end-to-end, évitant les artéfacts et goulots d'étranglement introduits par les VAE dans la diffusion latente en deux étapes. Cependant, l'optimisation des variétés pixel de haute dimension contenant de nombreux signaux perceptuellement non pertinents reste difficile, ce qui explique le retard des méthodes existantes de diffusion pixel par rapport aux modèles de diffusion latente. Nous proposons PixelGen, un cadre simple de diffusion pixel avec supervision perceptuelle. Au lieu de modéliser la variété image complète, PixelGen introduit deux pertes perceptuelles complémentaires pour guider le modèle de diffusion vers l'apprentissage d'une variété perceptuelle plus significative. Une perte LPIPS facilite l'apprentissage de meilleures structures locales, tandis qu'une perte perceptuelle basée sur DINO renforce la sémantique globale. Avec cette supervision perceptuelle, PixelGen surpasse les solides modèles de référence en diffusion latente. Il atteint un FID de 5.11 sur ImageNet-256 sans guidance classifieur-libre en seulement 80 époques d'entraînement, et démontre des performances d'extensibilité favorables pour la génération texte-image à grande échelle avec un score GenEval de 0.79. PixelGen ne nécessite ni VAE, ni représentations latentes, ni étapes auxiliaires, offrant ainsi un paradigme génératif plus simple mais plus puissant. Les codes sont disponibles publiquement à l'adresse https://github.com/Zehong-Ma/PixelGen.

English

Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.

PixelGen : La diffusion de pixels surpasse la diffusion latente grâce à une perte perceptuelle

PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

Résumé

Support