ChatPaper.aiChatPaper

エンドツーエンドのピクセル空間生成モデリングの進展:自己教師あり事前学習によるアプローチ

Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

October 14, 2025
著者: Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu
cs.AI

要旨

ピクセル空間の生成モデルは、潜在空間のモデルと比較して、訓練がより困難であり、一般的に性能が劣る傾向があり、持続的な性能と効率のギャップが存在する。本論文では、ピクセル空間の拡散モデルおよび一貫性モデルにおいてこのギャップを埋める新しい二段階の訓練フレームワークを提案する。第一段階では、クリーンな画像から意味のあるセマンティクスを捕捉し、それらを同じ決定論的サンプリング軌跡上の点と整合させるエンコーダを事前訓練する。この軌跡は、事前分布からデータ分布へと点を進化させるものである。第二段階では、エンコーダをランダムに初期化されたデコーダと統合し、拡散モデルおよび一貫性モデルの両方に対して完全なモデルをエンドツーエンドで微調整する。我々の訓練フレームワークは、ImageNetデータセットにおいて強力な実証性能を示す。具体的には、我々の拡散モデルは、ImageNet-256でFID 2.04、ImageNet-512でFID 2.35を75回の関数評価(NFE)で達成し、生成品質と効率の両面で従来のピクセル空間手法を大幅に上回り、同等の訓練コストで主要なVAEベースのモデルに匹敵する。さらに、ImageNet-256において、我々の一貫性モデルは単一のサンプリングステップでFID 8.82という印象的な結果を達成し、潜在空間のモデルを大幅に上回る。我々の知る限り、これは事前訓練されたVAEや拡散モデルに依存せずに高解像度画像上で直接一貫性モデルを成功裏に訓練した初めての例である。
English
Pixel-space generative models are often more difficult to train and generally underperform compared to their latent-space counterparts, leaving a persistent performance and efficiency gap. In this paper, we introduce a novel two-stage training framework that closes this gap for pixel-space diffusion and consistency models. In the first stage, we pre-train encoders to capture meaningful semantics from clean images while aligning them with points along the same deterministic sampling trajectory, which evolves points from the prior to the data distribution. In the second stage, we integrate the encoder with a randomly initialized decoder and fine-tune the complete model end-to-end for both diffusion and consistency models. Our training framework demonstrates strong empirical performance on ImageNet dataset. Specifically, our diffusion model reaches an FID of 2.04 on ImageNet-256 and 2.35 on ImageNet-512 with 75 number of function evaluations (NFE), surpassing prior pixel-space methods by a large margin in both generation quality and efficiency while rivaling leading VAE-based models at comparable training cost. Furthermore, on ImageNet-256, our consistency model achieves an impressive FID of 8.82 in a single sampling step, significantly surpassing its latent-space counterpart. To the best of our knowledge, this marks the first successful training of a consistency model directly on high-resolution images without relying on pre-trained VAEs or diffusion models.
PDF1053October 15, 2025