ChatPaper.aiChatPaper

Vooruitgang in end-to-end generatieve modellering in de pixelruimte via zelfsupervisie voorafgaande training

Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

October 14, 2025
Auteurs: Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu
cs.AI

Samenvatting

Pixel-ruimte generatieve modellen zijn vaak moeilijker te trainen en presteren over het algemeen minder goed in vergelijking met hun latent-ruimte tegenhangers, wat resulteert in een aanhoudende prestatie- en efficiëntiekloof. In dit artikel introduceren we een nieuw tweestaps trainingsraamwerk dat deze kloof overbrugt voor pixel-ruimte diffusie- en consistentiemodellen. In de eerste fase pre-trainen we encoders om betekenisvolle semantiek vast te leggen uit schone afbeeldingen, terwijl we deze uitlijnen met punten langs hetzelfde deterministische samplingtraject, dat punten evolueert van de prior naar de dataverdeling. In de tweede fase integreren we de encoder met een willekeurig geïnitialiseerde decoder en fine-tunen we het complete model end-to-end voor zowel diffusie- als consistentiemodellen. Ons trainingsraamwerk toont sterke empirische prestaties op de ImageNet-dataset. Specifiek bereikt ons diffusiemodel een FID van 2,04 op ImageNet-256 en 2,35 op ImageNet-512 met 75 aantal functie-evaluaties (NFE), wat eerdere pixel-ruimte methoden met een grote marge overtreft in zowel generatiekwaliteit als efficiëntie, terwijl het concurreert met toonaangevende VAE-gebaseerde modellen bij vergelijkbare trainingskosten. Bovendien behaalt ons consistentiemodel op ImageNet-256 een indrukwekkende FID van 8,82 in een enkele samplingstap, wat zijn latent-ruimte tegenhanger aanzienlijk overtreft. Voor zover wij weten, markeert dit de eerste succesvolle training van een consistentiemodel direct op hoogresolutie-afbeeldingen zonder te vertrouwen op vooraf getrainde VAE's of diffusiemodellen.
English
Pixel-space generative models are often more difficult to train and generally underperform compared to their latent-space counterparts, leaving a persistent performance and efficiency gap. In this paper, we introduce a novel two-stage training framework that closes this gap for pixel-space diffusion and consistency models. In the first stage, we pre-train encoders to capture meaningful semantics from clean images while aligning them with points along the same deterministic sampling trajectory, which evolves points from the prior to the data distribution. In the second stage, we integrate the encoder with a randomly initialized decoder and fine-tune the complete model end-to-end for both diffusion and consistency models. Our training framework demonstrates strong empirical performance on ImageNet dataset. Specifically, our diffusion model reaches an FID of 2.04 on ImageNet-256 and 2.35 on ImageNet-512 with 75 number of function evaluations (NFE), surpassing prior pixel-space methods by a large margin in both generation quality and efficiency while rivaling leading VAE-based models at comparable training cost. Furthermore, on ImageNet-256, our consistency model achieves an impressive FID of 8.82 in a single sampling step, significantly surpassing its latent-space counterpart. To the best of our knowledge, this marks the first successful training of a consistency model directly on high-resolution images without relying on pre-trained VAEs or diffusion models.
PDF1053October 15, 2025