PixelGen: Пиксельная диффузия превосходит латентную диффузию с перцептивными потерями

Аннотация

Пиксельная диффузия генерирует изображения непосредственно в пиксельном пространстве сквозным образом, избегая артефактов и узких мест, привносимых VAEs в двухэтапной латентной диффузии. Однако оптимизация многомерных пиксельных многообразий, содержащих множество перцептивно нерелевантных сигналов, является сложной задачей, из-за чего существующие методы пиксельной диффузии отстают от латентных диффузионных моделей. Мы предлагаем PixelGen — простую структуру пиксельной диффузии с перцептивным контролем. Вместо моделирования полного многообразия изображений PixelGen вводит два комплементарных перцептивных лосса, которые направляют диффузионную модель на изучение более осмысленного перцептивного многообразия. LPIPS-лосс способствует лучшему обучению локальных паттернов, тогда как перцептивный лосс на основе DINO усиливает глобальную семантику. Благодаря перцептивному контролю PixelGen превосходит сильные базовые модели латентной диффузии. Метод достигает FID 5.11 на ImageNet-256 без классификатор-фри гайданса, используя всего 80 эпох обучения, и демонстрирует благоприятные масштабируемые характеристики при крупномасштабной текстово-ориентированной генерации с показателем GenEval 0.79. PixelGen не требует VAEs, латентных представлений и вспомогательных этапов, предлагая более простую, но мощную генеративную парадигму. Код доступен по адресу https://github.com/Zehong-Ma/PixelGen.

English

Pixel diffusion generates images directly in pixel space in an end-to-end manner, avoiding the artifacts and bottlenecks introduced by VAEs in two-stage latent diffusion. However, it is challenging to optimize high-dimensional pixel manifolds that contain many perceptually irrelevant signals, leaving existing pixel diffusion methods lagging behind latent diffusion models. We propose PixelGen, a simple pixel diffusion framework with perceptual supervision. Instead of modeling the full image manifold, PixelGen introduces two complementary perceptual losses to guide diffusion model towards learning a more meaningful perceptual manifold. An LPIPS loss facilitates learning better local patterns, while a DINO-based perceptual loss strengthens global semantics. With perceptual supervision, PixelGen surpasses strong latent diffusion baselines. It achieves an FID of 5.11 on ImageNet-256 without classifier-free guidance using only 80 training epochs, and demonstrates favorable scaling performance on large-scale text-to-image generation with a GenEval score of 0.79. PixelGen requires no VAEs, no latent representations, and no auxiliary stages, providing a simpler yet more powerful generative paradigm. Codes are publicly available at https://github.com/Zehong-Ma/PixelGen.

PixelGen: Пиксельная диффузия превосходит латентную диффузию с перцептивными потерями

PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

Аннотация

Support