Fortschritte in der end-to-end generativen Modellierung im Pixelraum durch selbstüberwachtes Vor-Training
Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training
October 14, 2025
papers.authors: Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu
cs.AI
papers.abstract
Pixel-Raum-Generative Modelle sind oft schwieriger zu trainieren und schneiden im Allgemeinen schlechter ab als ihre Gegenstücke im latenten Raum, was eine anhaltende Lücke in Bezug auf Leistung und Effizienz hinterlässt. In diesem Artikel stellen wir ein neuartiges zweistufiges Trainingsframework vor, das diese Lücke für Pixel-Raum-Diffusions- und Konsistenzmodelle schließt. In der ersten Stufe trainieren wir Encoder vor, um aussagekräftige Semantik aus sauberen Bildern zu erfassen, während wir sie mit Punkten entlang derselben deterministischen Sampling-Trajektorie ausrichten, die Punkte von der Prior- zur Datenverteilung entwickelt. In der zweiten Stufe integrieren wir den Encoder mit einem zufällig initialisierten Decoder und feinabstimmen das vollständige Modell end-to-end für sowohl Diffusions- als auch Konsistenzmodelle. Unser Trainingsframework zeigt eine starke empirische Leistung auf dem ImageNet-Datensatz. Insbesondere erreicht unser Diffusionsmodell einen FID von 2,04 auf ImageNet-256 und 2,35 auf ImageNet-512 mit 75 Funktionsauswertungen (NFE), wobei es frühere Pixel-Raum-Methoden in Bezug auf Generierungsqualität und Effizienz deutlich übertrifft und führende VAE-basierte Modelle bei vergleichbaren Trainingskosten konkurriert. Darüber hinaus erreicht unser Konsistenzmodell auf ImageNet-256 einen beeindruckenden FID von 8,82 in einem einzigen Sampling-Schritt, was sein Gegenstück im latenten Raum deutlich übertrifft. Nach bestem Wissen markiert dies das erste erfolgreiche Training eines Konsistenzmodells direkt auf hochauflösenden Bildern, ohne sich auf vortrainierte VAEs oder Diffusionsmodelle zu verlassen.
English
Pixel-space generative models are often more difficult to train and generally
underperform compared to their latent-space counterparts, leaving a persistent
performance and efficiency gap. In this paper, we introduce a novel two-stage
training framework that closes this gap for pixel-space diffusion and
consistency models. In the first stage, we pre-train encoders to capture
meaningful semantics from clean images while aligning them with points along
the same deterministic sampling trajectory, which evolves points from the prior
to the data distribution. In the second stage, we integrate the encoder with a
randomly initialized decoder and fine-tune the complete model end-to-end for
both diffusion and consistency models. Our training framework demonstrates
strong empirical performance on ImageNet dataset. Specifically, our diffusion
model reaches an FID of 2.04 on ImageNet-256 and 2.35 on ImageNet-512 with 75
number of function evaluations (NFE), surpassing prior pixel-space methods by a
large margin in both generation quality and efficiency while rivaling leading
VAE-based models at comparable training cost. Furthermore, on ImageNet-256, our
consistency model achieves an impressive FID of 8.82 in a single sampling step,
significantly surpassing its latent-space counterpart. To the best of our
knowledge, this marks the first successful training of a consistency model
directly on high-resolution images without relying on pre-trained VAEs or
diffusion models.