PixNerd: Pixel-Neuralfeld-Diffusion
PixNerd: Pixel Neural Field Diffusion
July 31, 2025
papers.authors: Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
cs.AI
papers.abstract
Der aktuelle Erfolg von Diffusionstransformern hängt stark vom komprimierten latenten Raum ab, der durch den vortrainierten Variations-Autoencoder (VAE) geformt wird. Dieses zweistufige Trainingsparadigma führt jedoch unweigerlich zu akkumulierten Fehlern und Dekodierungsartefakten. Um die genannten Probleme zu lösen, kehren Forscher auf Kosten komplexer Kaskadenpipelines und erhöhter Token-Komplexität in den Pixelraum zurück. Im Gegensatz zu diesen Bemühungen schlagen wir vor, die patchweise Dekodierung mit einem neuronalen Feld zu modellieren und präsentieren eine einstufige, effiziente, end-to-end-Lösung, die wir als Pixel Neural Field Diffusion (PixelNerd) bezeichnen. Dank der effizienten neuronalen Felddarstellung in PixelNerd erreichten wir direkt einen FID-Wert von 2,15 auf ImageNet 256×256 und 2,84 auf ImageNet 512×512, ohne komplexe Kaskadenpipelines oder einen VAE zu verwenden. Wir erweitern unser PixelNerd-Framework auch auf Text-zu-Bild-Anwendungen. Unser PixelNerd-XXL/16 erzielte einen wettbewerbsfähigen Gesamtwert von 0,73 auf dem GenEval-Benchmark und 80,9 auf dem DPG-Benchmark.
English
The current success of diffusion transformers heavily depends on the
compressed latent space shaped by the pre-trained variational autoencoder(VAE).
However, this two-stage training paradigm inevitably introduces accumulated
errors and decoding artifacts. To address the aforementioned problems,
researchers return to pixel space at the cost of complicated cascade pipelines
and increased token complexity. In contrast to their efforts, we propose to
model the patch-wise decoding with neural field and present a single-scale,
single-stage, efficient, end-to-end solution, coined as pixel neural field
diffusion~(PixelNerd). Thanks to the efficient neural field representation in
PixNerd, we directly achieved 2.15 FID on ImageNet 256times256 and 2.84 FID
on ImageNet 512times512 without any complex cascade pipeline or VAE. We also
extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16
achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9
overall score on the DPG benchmark.