SNCE: Supervisione Consapevole della Geometria per la Generazione Scalabile di Immagini Discrete

Abstract

I recenti progressi nella generazione di immagini discrete hanno dimostrato che aumentare la dimensione del codebook VQ migliora significativamente la fedeltà della ricostruzione. Tuttavia, l'addestramento di modelli generativi con un codebook VQ di grandi dimensioni rimane impegnativo, richiedendo tipicamente modelli più grandi e cicli di addestramento più lunghi. In questo lavoro, proponiamo la Minimizzazione dell'Entropia Incrociata del Vicino Stocastico (SNCE), un nuovo obiettivo di addestramento progettato per affrontare le sfide di ottimizzazione dei generatori di immagini discreti con codebook di grandi dimensioni. Invece di supervisionare il modello con un target one-hot rigido, SNCE costruisce una distribuzione categoriale soft su un insieme di token vicini. La probabilità assegnata a ciascun token è proporzionale alla prossimità tra la sua incorporazione (embedding) del codice e l'incorporazione dell'immagine ground-truth, incoraggiando il modello a catturare una struttura geometrica semanticamente significativa nello spazio di incorporazione quantizzato. Abbiamo condotto esperimenti approfonditi su diverse attività: generazione condizionata da classe su ImageNet-256, sintesi di immagini su larga scala da testo e compiti di editing di immagini. I risultati mostrano che SNCE migliora significativamente la velocità di convergenza e la qualità complessiva della generazione rispetto agli obiettivi standard di entropia incrociata.

English

Recent advancements in discrete image generation showed that scaling the VQ codebook size significantly improves reconstruction fidelity. However, training generative models with a large VQ codebook remains challenging, typically requiring larger model size and a longer training schedule. In this work, we propose Stochastic Neighbor Cross Entropy Minimization (SNCE), a novel training objective designed to address the optimization challenges of large-codebook discrete image generators. Instead of supervising the model with a hard one-hot target, SNCE constructs a soft categorical distribution over a set of neighboring tokens. The probability assigned to each token is proportional to the proximity between its code embedding and the ground-truth image embedding, encouraging the model to capture semantically meaningful geometric structure in the quantized embedding space. We conduct extensive experiments across class-conditional ImageNet-256 generation, large-scale text-to-image synthesis, and image editing tasks. Results show that SNCE significantly improves convergence speed and overall generation quality compared to standard cross-entropy objectives.

SNCE: Supervisione Consapevole della Geometria per la Generazione Scalabile di Immagini Discrete

SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation

Abstract

Support