PixNerd : Diffusion de Champs Neuronaux par Pixel
PixNerd: Pixel Neural Field Diffusion
July 31, 2025
papers.authors: Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
cs.AI
papers.abstract
Le succès actuel des transformateurs de diffusion repose fortement sur l'espace latent compressé façonné par l'autoencodeur variationnel (VAE) pré-entraîné. Cependant, ce paradigme d'entraînement en deux étapes introduit inévitablement des erreurs accumulées et des artefacts de décodage. Pour résoudre ces problèmes, les chercheurs reviennent à l'espace pixel au prix de pipelines en cascade complexes et d'une complexité accrue des tokens. Contrairement à leurs efforts, nous proposons de modéliser le décodage par patchs avec un champ neuronal et présentons une solution monolithique, monostade, efficace et de bout en bout, baptisée diffusion par champ neuronal pixel (PixelNerd). Grâce à la représentation efficace du champ neuronal dans PixelNerd, nous avons directement atteint un FID de 2,15 sur ImageNet 256×256 et un FID de 2,84 sur ImageNet 512×512 sans aucun pipeline en cascade complexe ni VAE. Nous étendons également notre framework PixelNerd aux applications de texte à image. Notre modèle PixelNerd-XXL/16 a obtenu un score global compétitif de 0,73 sur le benchmark GenEval et un score global de 80,9 sur le benchmark DPG.
English
The current success of diffusion transformers heavily depends on the
compressed latent space shaped by the pre-trained variational autoencoder(VAE).
However, this two-stage training paradigm inevitably introduces accumulated
errors and decoding artifacts. To address the aforementioned problems,
researchers return to pixel space at the cost of complicated cascade pipelines
and increased token complexity. In contrast to their efforts, we propose to
model the patch-wise decoding with neural field and present a single-scale,
single-stage, efficient, end-to-end solution, coined as pixel neural field
diffusion~(PixelNerd). Thanks to the efficient neural field representation in
PixNerd, we directly achieved 2.15 FID on ImageNet 256times256 and 2.84 FID
on ImageNet 512times512 without any complex cascade pipeline or VAE. We also
extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16
achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9
overall score on the DPG benchmark.