Avanzando en el Modelado Generativo en el Espacio de Píxeles de Extremo a Extremo mediante Preentrenamiento Autosupervisado
Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training
October 14, 2025
Autores: Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu
cs.AI
Resumen
Los modelos generativos en el espacio de píxeles suelen ser más difíciles de entrenar y, en general, tienen un rendimiento inferior en comparación con sus contrapartes en el espacio latente, lo que deja una brecha persistente en cuanto a rendimiento y eficiencia. En este artículo, presentamos un novedoso marco de entrenamiento en dos etapas que cierra esta brecha para los modelos de difusión y consistencia en el espacio de píxeles. En la primera etapa, preentrenamos codificadores para capturar semántica significativa a partir de imágenes limpias mientras las alineamos con puntos a lo largo de la misma trayectoria de muestreo determinista, la cual evoluciona puntos desde la distribución previa hacia la distribución de datos. En la segunda etapa, integramos el codificador con un decodificador inicializado aleatoriamente y ajustamos finamente el modelo completo de extremo a extremo tanto para los modelos de difusión como de consistencia. Nuestro marco de entrenamiento demuestra un fuerte rendimiento empírico en el conjunto de datos ImageNet. Específicamente, nuestro modelo de difusión alcanza un FID de 2.04 en ImageNet-256 y 2.35 en ImageNet-512 con 75 evaluaciones de función (NFE), superando ampliamente a los métodos previos en el espacio de píxeles tanto en calidad de generación como en eficiencia, mientras rivaliza con los principales modelos basados en VAE a un costo de entrenamiento comparable. Además, en ImageNet-256, nuestro modelo de consistencia logra un impresionante FID de 8.82 en un solo paso de muestreo, superando significativamente a su contraparte en el espacio latente. Hasta donde sabemos, esto marca el primer entrenamiento exitoso de un modelo de consistencia directamente en imágenes de alta resolución sin depender de VAEs o modelos de difusión preentrenados.
English
Pixel-space generative models are often more difficult to train and generally
underperform compared to their latent-space counterparts, leaving a persistent
performance and efficiency gap. In this paper, we introduce a novel two-stage
training framework that closes this gap for pixel-space diffusion and
consistency models. In the first stage, we pre-train encoders to capture
meaningful semantics from clean images while aligning them with points along
the same deterministic sampling trajectory, which evolves points from the prior
to the data distribution. In the second stage, we integrate the encoder with a
randomly initialized decoder and fine-tune the complete model end-to-end for
both diffusion and consistency models. Our training framework demonstrates
strong empirical performance on ImageNet dataset. Specifically, our diffusion
model reaches an FID of 2.04 on ImageNet-256 and 2.35 on ImageNet-512 with 75
number of function evaluations (NFE), surpassing prior pixel-space methods by a
large margin in both generation quality and efficiency while rivaling leading
VAE-based models at comparable training cost. Furthermore, on ImageNet-256, our
consistency model achieves an impressive FID of 8.82 in a single sampling step,
significantly surpassing its latent-space counterpart. To the best of our
knowledge, this marks the first successful training of a consistency model
directly on high-resolution images without relying on pre-trained VAEs or
diffusion models.