ChatPaper.aiChatPaper

Progrès dans la modélisation générative en espace pixel de bout en bout via un pré-entraînement auto-supervisé

Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

October 14, 2025
papers.authors: Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu
cs.AI

papers.abstract

Les modèles génératifs dans l'espace des pixels sont souvent plus difficiles à entraîner et sous-performent généralement par rapport à leurs homologues dans l'espace latent, laissant persister un écart de performance et d'efficacité. Dans cet article, nous introduisons un nouveau cadre d'entraînement en deux étapes qui comble cet écart pour les modèles de diffusion et de cohérence dans l'espace des pixels. Dans la première étape, nous pré-entraînons des encodeurs pour capturer des sémantiques significatives à partir d'images propres tout en les alignant avec des points le long de la même trajectoire d'échantillonnage déterministe, qui évolue les points de la distribution a priori vers la distribution des données. Dans la seconde étape, nous intégrons l'encodeur avec un décodeur initialisé aléatoirement et affinons le modèle complet de bout en bout pour les modèles de diffusion et de cohérence. Notre cadre d'entraînement démontre une forte performance empirique sur le jeu de données ImageNet. Plus précisément, notre modèle de diffusion atteint un FID de 2,04 sur ImageNet-256 et de 2,35 sur ImageNet-512 avec 75 évaluations de fonction (NFE), surpassant largement les méthodes précédentes dans l'espace des pixels en termes de qualité de génération et d'efficacité, tout en rivalisant avec les modèles basés sur VAE à un coût d'entraînement comparable. De plus, sur ImageNet-256, notre modèle de cohérence atteint un FID impressionnant de 8,82 en une seule étape d'échantillonnage, surpassant significativement son homologue dans l'espace latent. À notre connaissance, cela marque le premier entraînement réussi d'un modèle de cohérence directement sur des images haute résolution sans recourir à des VAE ou des modèles de diffusion pré-entraînés.
English
Pixel-space generative models are often more difficult to train and generally underperform compared to their latent-space counterparts, leaving a persistent performance and efficiency gap. In this paper, we introduce a novel two-stage training framework that closes this gap for pixel-space diffusion and consistency models. In the first stage, we pre-train encoders to capture meaningful semantics from clean images while aligning them with points along the same deterministic sampling trajectory, which evolves points from the prior to the data distribution. In the second stage, we integrate the encoder with a randomly initialized decoder and fine-tune the complete model end-to-end for both diffusion and consistency models. Our training framework demonstrates strong empirical performance on ImageNet dataset. Specifically, our diffusion model reaches an FID of 2.04 on ImageNet-256 and 2.35 on ImageNet-512 with 75 number of function evaluations (NFE), surpassing prior pixel-space methods by a large margin in both generation quality and efficiency while rivaling leading VAE-based models at comparable training cost. Furthermore, on ImageNet-256, our consistency model achieves an impressive FID of 8.82 in a single sampling step, significantly surpassing its latent-space counterpart. To the best of our knowledge, this marks the first successful training of a consistency model directly on high-resolution images without relying on pre-trained VAEs or diffusion models.
PDF1053October 15, 2025