PixelGen: Difusão de Pixels Supera Difusão Latente com Perda Perceptual

Resumo

A difusão de pixels gera imagens diretamente no espaço de pixels de forma ponta a ponta, evitando os artefatos e gargalos introduzidos por VAEs na difusão latente em dois estágios. No entanto, é desafiador otimizar variedades de pixels de alta dimensão que contêm muitos sinais perceptualmente irrelevantes, fazendo com que os métodos existentes de difusão de pixels fiquem aquém dos modelos de difusão latente. Propomos o PixelGen, uma estrutura simples de difusão de pixels com supervisão perceptual. Em vez de modelar a variedade completa da imagem, o PixelGen introduz duas perdas perceptual complementares para orientar o modelo de difusão a aprender uma variedade perceptual mais significativa. Uma perda LPIPS facilita a aprendizagem de melhores padrões locais, enquanto uma perda perceptual baseada em DINO fortalece a semântica global. Com supervisão perceptual, o PixelGen supera fortes linhas de base de difusão latente. Alcança um FID de 5.11 no ImageNet-256 sem orientação livre de classificador usando apenas 80 épocas de treinamento, e demonstra desempenho de escalabilidade favorável na geração de texto para imagem em larga escala com uma pontuação GenEval de 0.79. O PixelGen não requer VAEs, nem representações latentes, nem estágios auxiliares, oferecendo um paradigma generativo mais simples, porém mais poderoso. Os códigos estão publicamente disponíveis em https://github.com/Zehong-Ma/PixelGen.

English

Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.

PixelGen: Difusão de Pixels Supera Difusão Latente com Perda Perceptual

PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

Resumo

Support