자기 지도 사전 학습을 통한 종단 간 픽셀 공간 생성 모델링의 발전
Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training
October 14, 2025
저자: Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu
cs.AI
초록
픽셀 공간 생성 모델은 잠재 공간 모델에 비해 학습이 더 어렵고 일반적으로 성능이 낮아 지속적인 성능 및 효율성 격차가 존재한다. 본 논문에서는 픽셀 공간 확산 및 일관성 모델에 대한 이러한 격차를 해소하는 새로운 2단계 학습 프레임워크를 소개한다. 첫 번째 단계에서는 깨끗한 이미지로부터 의미 있는 의미를 포착하면서, 동일한 결정론적 샘플링 궤적을 따라 점들을 정렬하는 인코더를 사전 학습한다. 이 궤적은 사전 분포에서 데이터 분포로 점을 진화시킨다. 두 번째 단계에서는 인코더를 무작위로 초기화된 디코더와 통합하고, 확산 및 일관성 모델 모두에 대해 전체 모델을 종단 간 미세 조정한다. 우리의 학습 프레임워크는 ImageNet 데이터셋에서 강력한 실증적 성능을 보여준다. 구체적으로, 우리의 확산 모델은 ImageNet-256에서 2.04, ImageNet-512에서 2.35의 FID를 달성하며, 75회의 함수 평가(Number of Function Evaluations, NFE)로 이전의 픽셀 공간 방법을 생성 품질과 효율성 모두에서 크게 앞지르면서, 비슷한 학습 비용으로 선도적인 VAE 기반 모델과도 경쟁력을 보인다. 또한, ImageNet-256에서 우리의 일관성 모델은 단일 샘플링 단계에서 8.82의 FID를 달성하여, 잠재 공간 모델을 크게 능가한다. 우리가 아는 한, 이는 사전 학습된 VAE나 확산 모델에 의존하지 않고 고해상도 이미지에서 직접 일관성 모델을 성공적으로 학습한 첫 사례이다.
English
Pixel-space generative models are often more difficult to train and generally
underperform compared to their latent-space counterparts, leaving a persistent
performance and efficiency gap. In this paper, we introduce a novel two-stage
training framework that closes this gap for pixel-space diffusion and
consistency models. In the first stage, we pre-train encoders to capture
meaningful semantics from clean images while aligning them with points along
the same deterministic sampling trajectory, which evolves points from the prior
to the data distribution. In the second stage, we integrate the encoder with a
randomly initialized decoder and fine-tune the complete model end-to-end for
both diffusion and consistency models. Our training framework demonstrates
strong empirical performance on ImageNet dataset. Specifically, our diffusion
model reaches an FID of 2.04 on ImageNet-256 and 2.35 on ImageNet-512 with 75
number of function evaluations (NFE), surpassing prior pixel-space methods by a
large margin in both generation quality and efficiency while rivaling leading
VAE-based models at comparable training cost. Furthermore, on ImageNet-256, our
consistency model achieves an impressive FID of 8.82 in a single sampling step,
significantly surpassing its latent-space counterpart. To the best of our
knowledge, this marks the first successful training of a consistency model
directly on high-resolution images without relying on pre-trained VAEs or
diffusion models.