ChatPaper.aiChatPaper

Avanzamento della modellazione generativa end-to-end nello spazio dei pixel attraverso il pre-addestramento self-supervised

Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

October 14, 2025
Autori: Jiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu
cs.AI

Abstract

I modelli generativi nello spazio dei pixel sono spesso più difficili da addestrare e generalmente ottengono prestazioni inferiori rispetto alle loro controparti nello spazio latente, lasciando un persistente divario in termini di prestazioni ed efficienza. In questo articolo, introduciamo un nuovo framework di addestramento in due fasi che colma questo divario per i modelli di diffusione e di consistenza nello spazio dei pixel. Nella prima fase, pre-addestriamo degli encoder per catturare semantiche significative da immagini pulite, allineandole con punti lungo la stessa traiettoria di campionamento deterministico, che evolve i punti dalla distribuzione a priori a quella dei dati. Nella seconda fase, integriamo l'encoder con un decoder inizializzato casualmente e ottimizziamo end-to-end il modello completo sia per i modelli di diffusione che di consistenza. Il nostro framework di addestramento dimostra forti prestazioni empiriche sul dataset ImageNet. In particolare, il nostro modello di diffusione raggiunge un FID di 2.04 su ImageNet-256 e 2.35 su ImageNet-512 con 75 valutazioni di funzione (NFE), superando di gran lunga i precedenti metodi nello spazio dei pixel sia in qualità di generazione che in efficienza, rivaleggiando con i migliori modelli basati su VAE a costi di addestramento comparabili. Inoltre, su ImageNet-256, il nostro modello di consistenza raggiunge un impressionante FID di 8.82 in un singolo passo di campionamento, superando significativamente la sua controparte nello spazio latente. Per quanto ne sappiamo, questo rappresenta il primo addestramento riuscito di un modello di consistenza direttamente su immagini ad alta risoluzione senza fare affidamento su VAE o modelli di diffusione pre-addestrati.
English
Pixel-space generative models are often more difficult to train and generally underperform compared to their latent-space counterparts, leaving a persistent performance and efficiency gap. In this paper, we introduce a novel two-stage training framework that closes this gap for pixel-space diffusion and consistency models. In the first stage, we pre-train encoders to capture meaningful semantics from clean images while aligning them with points along the same deterministic sampling trajectory, which evolves points from the prior to the data distribution. In the second stage, we integrate the encoder with a randomly initialized decoder and fine-tune the complete model end-to-end for both diffusion and consistency models. Our training framework demonstrates strong empirical performance on ImageNet dataset. Specifically, our diffusion model reaches an FID of 2.04 on ImageNet-256 and 2.35 on ImageNet-512 with 75 number of function evaluations (NFE), surpassing prior pixel-space methods by a large margin in both generation quality and efficiency while rivaling leading VAE-based models at comparable training cost. Furthermore, on ImageNet-256, our consistency model achieves an impressive FID of 8.82 in a single sampling step, significantly surpassing its latent-space counterpart. To the best of our knowledge, this marks the first successful training of a consistency model directly on high-resolution images without relying on pre-trained VAEs or diffusion models.
PDF1053October 15, 2025