PixNerd: Diffusione di Campi Neurali Pixel
PixNerd: Pixel Neural Field Diffusion
July 31, 2025
Autori: Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
cs.AI
Abstract
Il successo attuale dei transformer di diffusione dipende fortemente dallo spazio latente compresso modellato dall'autoencoder variazionale (VAE) pre-addestrato. Tuttavia, questo paradigma di addestramento in due fasi introduce inevitabilmente errori accumulati e artefatti di decodifica. Per affrontare i problemi menzionati, i ricercatori sono tornati allo spazio dei pixel al costo di pipeline a cascata complesse e di una maggiore complessità dei token. In contrasto con i loro sforzi, proponiamo di modellare la decodifica patch-wise con il campo neurale e presentiamo una soluzione end-to-end efficiente, a singola scala e a singolo stadio, denominata pixel neural field diffusion (PixelNerd). Grazie alla rappresentazione efficiente del campo neurale in PixNerd, abbiamo direttamente raggiunto un FID di 2.15 su ImageNet 256x256 e un FID di 2.84 su ImageNet 512x512 senza alcuna complessa pipeline a cascata o VAE. Abbiamo anche esteso il nostro framework PixNerd alle applicazioni di testo-immagine. Il nostro PixNerd-XXL/16 ha ottenuto un punteggio complessivo competitivo di 0.73 sul benchmark GenEval e un punteggio complessivo di 80.9 sul benchmark DPG.
English
The current success of diffusion transformers heavily depends on the
compressed latent space shaped by the pre-trained variational autoencoder(VAE).
However, this two-stage training paradigm inevitably introduces accumulated
errors and decoding artifacts. To address the aforementioned problems,
researchers return to pixel space at the cost of complicated cascade pipelines
and increased token complexity. In contrast to their efforts, we propose to
model the patch-wise decoding with neural field and present a single-scale,
single-stage, efficient, end-to-end solution, coined as pixel neural field
diffusion~(PixelNerd). Thanks to the efficient neural field representation in
PixNerd, we directly achieved 2.15 FID on ImageNet 256times256 and 2.84 FID
on ImageNet 512times512 without any complex cascade pipeline or VAE. We also
extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16
achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9
overall score on the DPG benchmark.