ChatPaper.aiChatPaper

Развитие сквозного генеративного моделирования в пиксельном пространстве через самообучаемую предварительную подготовку

Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

October 14, 2025
Авторы: Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu
cs.AI

Аннотация

Генеративные модели в пространстве пикселей часто сложнее обучать, и они, как правило, уступают по производительности своим аналогам в латентном пространстве, что создает устойчивый разрыв в качестве и эффективности. В данной работе мы представляем новую двухэтапную схему обучения, которая устраняет этот разрыв для диффузионных моделей и моделей согласованности в пространстве пикселей. На первом этапе мы предварительно обучаем кодировщики для извлечения значимой семантики из чистых изображений, одновременно согласовывая их с точками вдоль одной и той же детерминированной траектории сэмплирования, которая преобразует точки из априорного распределения в распределение данных. На втором этапе мы интегрируем кодировщик с случайно инициализированным декодировщиком и дообучаем полную модель end-to-end как для диффузионных моделей, так и для моделей согласованности. Наша схема обучения демонстрирует высокую эмпирическую производительность на наборе данных ImageNet. В частности, наша диффузионная модель достигает FID 2.04 на ImageNet-256 и 2.35 на ImageNet-512 при 75 оценках функции (NFE), значительно превосходя предыдущие методы в пространстве пикселей как по качеству генерации, так и по эффективности, и конкурируя с ведущими моделями на основе VAE при сопоставимых затратах на обучение. Более того, на ImageNet-256 наша модель согласованности достигает впечатляющего FID 8.82 за один шаг сэмплирования, значительно превосходя свой аналог в латентном пространстве. Насколько нам известно, это первый успешный опыт обучения модели согласованности непосредственно на изображениях высокого разрешения без использования предварительно обученных VAE или диффузионных моделей.
English
Pixel-space generative models are often more difficult to train and generally underperform compared to their latent-space counterparts, leaving a persistent performance and efficiency gap. In this paper, we introduce a novel two-stage training framework that closes this gap for pixel-space diffusion and consistency models. In the first stage, we pre-train encoders to capture meaningful semantics from clean images while aligning them with points along the same deterministic sampling trajectory, which evolves points from the prior to the data distribution. In the second stage, we integrate the encoder with a randomly initialized decoder and fine-tune the complete model end-to-end for both diffusion and consistency models. Our training framework demonstrates strong empirical performance on ImageNet dataset. Specifically, our diffusion model reaches an FID of 2.04 on ImageNet-256 and 2.35 on ImageNet-512 with 75 number of function evaluations (NFE), surpassing prior pixel-space methods by a large margin in both generation quality and efficiency while rivaling leading VAE-based models at comparable training cost. Furthermore, on ImageNet-256, our consistency model achieves an impressive FID of 8.82 in a single sampling step, significantly surpassing its latent-space counterpart. To the best of our knowledge, this marks the first successful training of a consistency model directly on high-resolution images without relying on pre-trained VAEs or diffusion models.
PDF1053October 15, 2025