PixNerd: Pixel Neuraal Veld Diffusie
PixNerd: Pixel Neural Field Diffusion
July 31, 2025
Auteurs: Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
cs.AI
Samenvatting
Het huidige succes van diffusie-transformers hangt sterk af van de gecomprimeerde latente ruimte die gevormd wordt door de vooraf getrainde variational autoencoder (VAE). Dit tweestaps-trainingsparadigma introduceert echter onvermijdelijk opgestapelde fouten en decodeerartefacten. Om de bovengenoemde problemen aan te pakken, keren onderzoekers terug naar de pixelruimte, ten koste van ingewikkelde cascade-pipelines en verhoogde tokencomplexiteit. In tegenstelling tot hun inspanningen stellen wij voor om het patch-gewijze decoderen te modelleren met een neuraal veld en presenteren we een enkelschalige, enkelfasige, efficiënte, end-to-end oplossing, genaamd pixel neural field diffusion (PixelNerd). Dankzij de efficiënte neurale veldrepresentatie in PixelNerd hebben we direct een FID van 2.15 behaald op ImageNet 256x256 en een FID van 2.84 op ImageNet 512x512, zonder enige complexe cascade-pipeline of VAE. We breiden ons PixelNerd-framework ook uit naar tekst-naar-beeldtoepassingen. Onze PixelNerd-XXL/16 behaalde een competitieve overall score van 0.73 op de GenEval-benchmark en een overall score van 80.9 op de DPG-benchmark.
English
The current success of diffusion transformers heavily depends on the
compressed latent space shaped by the pre-trained variational autoencoder(VAE).
However, this two-stage training paradigm inevitably introduces accumulated
errors and decoding artifacts. To address the aforementioned problems,
researchers return to pixel space at the cost of complicated cascade pipelines
and increased token complexity. In contrast to their efforts, we propose to
model the patch-wise decoding with neural field and present a single-scale,
single-stage, efficient, end-to-end solution, coined as pixel neural field
diffusion~(PixelNerd). Thanks to the efficient neural field representation in
PixNerd, we directly achieved 2.15 FID on ImageNet 256times256 and 2.84 FID
on ImageNet 512times512 without any complex cascade pipeline or VAE. We also
extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16
achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9
overall score on the DPG benchmark.