ChatPaper.aiChatPaper

PixNerd: Campo Neural de Difusão de Pixels

PixNerd: Pixel Neural Field Diffusion

July 31, 2025
Autores: Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
cs.AI

Resumo

O sucesso atual dos transformadores de difusão depende fortemente do espaço latente comprimido moldado pelo autoencoder variacional (VAE) pré-treinado. No entanto, esse paradigma de treinamento em duas etapas introduz inevitavelmente erros acumulados e artefatos de decodificação. Para abordar os problemas mencionados, os pesquisadores retornam ao espaço de pixels ao custo de pipelines em cascata complexos e aumento da complexidade dos tokens. Em contraste com esses esforços, propomos modelar a decodificação por patches com campo neural e apresentamos uma solução eficiente, de estágio único, de escala única e de ponta a ponta, denominada difusão de campo neural de pixels (PixelNerd). Graças à representação eficiente do campo neural no PixNerd, alcançamos diretamente 2,15 FID no ImageNet 256x256 e 2,84 FID no ImageNet 512x512 sem qualquer pipeline em cascata complexo ou VAE. Também estendemos nossa estrutura PixNerd para aplicações de texto para imagem. Nosso PixNerd-XXL/16 alcançou uma pontuação geral competitiva de 0,73 no benchmark GenEval e 80,9 no benchmark DPG.
English
The current success of diffusion transformers heavily depends on the compressed latent space shaped by the pre-trained variational autoencoder(VAE). However, this two-stage training paradigm inevitably introduces accumulated errors and decoding artifacts. To address the aforementioned problems, researchers return to pixel space at the cost of complicated cascade pipelines and increased token complexity. In contrast to their efforts, we propose to model the patch-wise decoding with neural field and present a single-scale, single-stage, efficient, end-to-end solution, coined as pixel neural field diffusion~(PixelNerd). Thanks to the efficient neural field representation in PixNerd, we directly achieved 2.15 FID on ImageNet 256times256 and 2.84 FID on ImageNet 512times512 without any complex cascade pipeline or VAE. We also extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16 achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9 overall score on the DPG benchmark.
PDF516August 4, 2025