ChatPaper.aiChatPaper

PixelGen:知覚損失によりピクセル拡散が潜在拡散を凌駕

PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

February 2, 2026
著者: Zehong Ma, Ruihan Xu, Shiliang Zhang
cs.AI

要旨

ピクセル拡散は、ピクセル空間で直接画像を生成するエンドツーエンドの手法であり、2段階の潜在拡散においてVAEが導入するアーティファクトやボトルネックを回避する。しかし、知覚的に無関係な信号を多く含む高次元ピクセル多様体の最適化は困難であり、既存のピクセル拡散法は潜在拡散モデルに遅れをとっている。本研究では、知覚的監督を備えた簡素なピクセル拡散フレームワークであるPixelGenを提案する。PixelGenは画像多様体全体をモデル化する代わりに、2つの相補的な知覚損失を導入し、拡散モデルがより意味のある知覚的多様体を学習するよう導く。LPIPS損失は優れた局所パターンの学習を促進し、DINOに基づく知覚損失は大域的な意味情報を強化する。知覚的監督により、PixelGenは強力な潜在拡散ベースラインを凌駕する。クラス分類器不要のガイダンスを用いず、わずか80学習エポックでImageNet-256においてFID 5.11を達成し、大規模テキスト画像生成ではGenEvalスコア0.79の良好なスケーリング性能を示す。PixelGenはVAE、潜在表現、補助段階を一切必要とせず、より簡潔でありながら強力な生成パラダイムを提供する。コードはhttps://github.com/Zehong-Ma/PixelGen で公開されている。
English
Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.
PDF442March 12, 2026