PixNerd: Difusión de Campos Neuronales de Píxeles
PixNerd: Pixel Neural Field Diffusion
July 31, 2025
Autores: Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
cs.AI
Resumen
El éxito actual de los transformadores de difusión depende en gran medida del espacio latente comprimido conformado por el autoencoder variacional (VAE) preentrenado. Sin embargo, este paradigma de entrenamiento en dos etapas introduce inevitablemente errores acumulados y artefactos de decodificación. Para abordar los problemas mencionados, los investigadores han vuelto al espacio de píxeles a costa de tuberías en cascada complicadas y una mayor complejidad de tokens. En contraste con sus esfuerzos, proponemos modelar la decodificación por parches con campos neuronales y presentamos una solución eficiente, de una sola escala, de una sola etapa y de extremo a extremo, denominada difusión de campo neuronal de píxeles (PixelNerd). Gracias a la representación eficiente del campo neuronal en PixelNerd, logramos directamente un FID de 2.15 en ImageNet 256x256 y un FID de 2.84 en ImageNet 512x512 sin ninguna tubería en cascada compleja o VAE. También extendemos nuestro marco PixelNerd a aplicaciones de texto a imagen. Nuestro PixelNerd-XXL/16 alcanzó una puntuación general competitiva de 0.73 en el benchmark GenEval y 80.9 en el benchmark DPG.
English
The current success of diffusion transformers heavily depends on the
compressed latent space shaped by the pre-trained variational autoencoder(VAE).
However, this two-stage training paradigm inevitably introduces accumulated
errors and decoding artifacts. To address the aforementioned problems,
researchers return to pixel space at the cost of complicated cascade pipelines
and increased token complexity. In contrast to their efforts, we propose to
model the patch-wise decoding with neural field and present a single-scale,
single-stage, efficient, end-to-end solution, coined as pixel neural field
diffusion~(PixelNerd). Thanks to the efficient neural field representation in
PixNerd, we directly achieved 2.15 FID on ImageNet 256times256 and 2.84 FID
on ImageNet 512times512 without any complex cascade pipeline or VAE. We also
extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16
achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9
overall score on the DPG benchmark.