Avançando na Modelagem Generativa no Espaço de Pixels de Ponta a Ponta por meio de Pré-treinamento Autossupervisionado
Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training
October 14, 2025
Autores: Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu
cs.AI
Resumo
Modelos generativos no espaço de pixels geralmente são mais difíceis de treinar e tendem a ter desempenho inferior em comparação com suas contrapartes no espaço latente, resultando em uma lacuna persistente de desempenho e eficiência. Neste artigo, introduzimos uma nova estrutura de treinamento em duas etapas que fecha essa lacuna para modelos de difusão e de consistência no espaço de pixels. Na primeira etapa, pré-treinamos codificadores para capturar semânticas significativas de imagens limpas, alinhando-as com pontos ao longo da mesma trajetória determinística de amostragem, que evolui pontos da distribuição anterior para a distribuição de dados. Na segunda etapa, integramos o codificador com um decodificador inicializado aleatoriamente e ajustamos o modelo completo de ponta a ponta para ambos os modelos de difusão e de consistência. Nossa estrutura de treinamento demonstra um forte desempenho empírico no conjunto de dados ImageNet. Especificamente, nosso modelo de difusão alcança um FID de 2,04 no ImageNet-256 e 2,35 no ImageNet-512 com 75 avaliações de função (NFE), superando métodos anteriores no espaço de pixels por uma grande margem tanto em qualidade de geração quanto em eficiência, rivalizando com os principais modelos baseados em VAE em custo de treinamento comparável. Além disso, no ImageNet-256, nosso modelo de consistência alcança um FID impressionante de 8,82 em uma única etapa de amostragem, superando significativamente sua contraparte no espaço latente. Até onde sabemos, este é o primeiro treinamento bem-sucedido de um modelo de consistência diretamente em imagens de alta resolução sem depender de VAEs ou modelos de difusão pré-treinados.
English
Pixel-space generative models are often more difficult to train and generally
underperform compared to their latent-space counterparts, leaving a persistent
performance and efficiency gap. In this paper, we introduce a novel two-stage
training framework that closes this gap for pixel-space diffusion and
consistency models. In the first stage, we pre-train encoders to capture
meaningful semantics from clean images while aligning them with points along
the same deterministic sampling trajectory, which evolves points from the prior
to the data distribution. In the second stage, we integrate the encoder with a
randomly initialized decoder and fine-tune the complete model end-to-end for
both diffusion and consistency models. Our training framework demonstrates
strong empirical performance on ImageNet dataset. Specifically, our diffusion
model reaches an FID of 2.04 on ImageNet-256 and 2.35 on ImageNet-512 with 75
number of function evaluations (NFE), surpassing prior pixel-space methods by a
large margin in both generation quality and efficiency while rivaling leading
VAE-based models at comparable training cost. Furthermore, on ImageNet-256, our
consistency model achieves an impressive FID of 8.82 in a single sampling step,
significantly surpassing its latent-space counterpart. To the best of our
knowledge, this marks the first successful training of a consistency model
directly on high-resolution images without relying on pre-trained VAEs or
diffusion models.