PixNerd: Pixel-Neuralfeld-Diffusion

Zusammenfassung

Der aktuelle Erfolg von Diffusionstransformern hängt stark vom komprimierten latenten Raum ab, der durch den vortrainierten Variations-Autoencoder (VAE) geformt wird. Dieses zweistufige Trainingsparadigma führt jedoch unweigerlich zu akkumulierten Fehlern und Dekodierungsartefakten. Um die genannten Probleme zu lösen, kehren Forscher auf Kosten komplexer Kaskadenpipelines und erhöhter Token-Komplexität in den Pixelraum zurück. Im Gegensatz zu diesen Bemühungen schlagen wir vor, die patchweise Dekodierung mit einem neuronalen Feld zu modellieren und präsentieren eine einstufige, effiziente, end-to-end-Lösung, die wir als Pixel Neural Field Diffusion (PixelNerd) bezeichnen. Dank der effizienten neuronalen Felddarstellung in PixelNerd erreichten wir direkt einen FID-Wert von 2,15 auf ImageNet 256×256 und 2,84 auf ImageNet 512×512, ohne komplexe Kaskadenpipelines oder einen VAE zu verwenden. Wir erweitern unser PixelNerd-Framework auch auf Text-zu-Bild-Anwendungen. Unser PixelNerd-XXL/16 erzielte einen wettbewerbsfähigen Gesamtwert von 0,73 auf dem GenEval-Benchmark und 80,9 auf dem DPG-Benchmark.

English

The current success of diffusion transformers heavily depends on the compressed latent space shaped by the pre-trained variational autoencoder(VAE). However, this two-stage training paradigm inevitably introduces accumulated errors and decoding artifacts. To address the aforementioned problems, researchers return to pixel space at the cost of complicated cascade pipelines and increased token complexity. In contrast to their efforts, we propose to model the patch-wise decoding with neural field and present a single-scale, single-stage, efficient, end-to-end solution, coined as pixel neural field diffusion~(PixelNerd). Thanks to the efficient neural field representation in PixNerd, we directly achieved 2.15 FID on ImageNet 256times256 and 2.84 FID on ImageNet 512times512 without any complex cascade pipeline or VAE. We also extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16 achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9 overall score on the DPG benchmark.