ChatPaper.aiChatPaper

PixNerd: Диффузия в нейронных полях пикселей

PixNerd: Pixel Neural Field Diffusion

July 31, 2025
Авторы: Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
cs.AI

Аннотация

Современный успех диффузионных трансформаторов во многом зависит от сжатого латентного пространства, сформированного предварительно обученным вариационным автокодировщиком (VAE). Однако этот двухэтапный подход к обучению неизбежно приводит к накоплению ошибок и артефактов декодирования. Для решения указанных проблем исследователи возвращаются к работе в пиксельном пространстве, что сопровождается усложнением каскадных конвейеров и увеличением сложности токенов. В отличие от этих усилий, мы предлагаем моделировать пошаговое декодирование с использованием нейронного поля и представляем одноуровневое, одноэтапное, эффективное и сквозное решение, названное диффузией пиксельного нейронного поля (PixelNerd). Благодаря эффективному представлению нейронного поля в PixelNerd, мы напрямую достигли показателя FID 2.15 на ImageNet 256×256 и 2.84 на ImageNet 512×512 без использования сложных каскадных конвейеров или VAE. Мы также расширили наш фреймворк PixelNerd для задач генерации изображений по тексту. Наша модель PixelNerd-XXL/16 достигла конкурентоспособного общего балла 0.73 на бенчмарке GenEval и 80.9 на бенчмарке DPG.
English
The current success of diffusion transformers heavily depends on the compressed latent space shaped by the pre-trained variational autoencoder(VAE). However, this two-stage training paradigm inevitably introduces accumulated errors and decoding artifacts. To address the aforementioned problems, researchers return to pixel space at the cost of complicated cascade pipelines and increased token complexity. In contrast to their efforts, we propose to model the patch-wise decoding with neural field and present a single-scale, single-stage, efficient, end-to-end solution, coined as pixel neural field diffusion~(PixelNerd). Thanks to the efficient neural field representation in PixNerd, we directly achieved 2.15 FID on ImageNet 256times256 and 2.84 FID on ImageNet 512times512 without any complex cascade pipeline or VAE. We also extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16 achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9 overall score on the DPG benchmark.
PDF455August 4, 2025