SNCE : Supervision géométriquement informée pour la génération d'images discrètes évolutive

Résumé

Les avancées récentes en génération d'images discrètes ont montré que l'augmentation de la taille du codebook VQ améliore significativement la fidélité de reconstruction. Cependant, l'entraînement de modèles génératifs avec un grand codebook VQ reste difficile, nécessitant généralement une architecture plus large et un cycle d'apprentissage plus long. Dans ce travail, nous proposons la Minimisation de l'Entropie Croisée des Voisins Stochastiques (SNCE), une nouvelle fonction de coût conçue pour résoudre les défis d'optimisation des générateurs d'images discrètes à grand codebook. Au lieu de superviser le modèle avec une cible one-hot stricte, SNCE construit une distribution catégorique douce sur un ensemble de tokens voisins. La probabilité attribuée à chaque token est proportionnelle à la proximité entre son embedding de code et l'embedding de l'image de référence, encourageant le modèle à capturer une structure géométrique sémantiquement significative dans l'espace d'embedding quantifié. Nous menons des expériences approfondies sur la génération conditionnelle ImageNet-256, la synthèse d'image à grande échelle guidée par texte, et les tâches de retouche d'image. Les résultats démontrent que SNCE améliore significativement la vitesse de convergence et la qualité générative globale par rapport aux objectifs d'entropie croisée standard.

English

Recent advancements in discrete image generation showed that scaling the VQ codebook size significantly improves reconstruction fidelity. However, training generative models with a large VQ codebook remains challenging, typically requiring larger model size and a longer training schedule. In this work, we propose Stochastic Neighbor Cross Entropy Minimization (SNCE), a novel training objective designed to address the optimization challenges of large-codebook discrete image generators. Instead of supervising the model with a hard one-hot target, SNCE constructs a soft categorical distribution over a set of neighboring tokens. The probability assigned to each token is proportional to the proximity between its code embedding and the ground-truth image embedding, encouraging the model to capture semantically meaningful geometric structure in the quantized embedding space. We conduct extensive experiments across class-conditional ImageNet-256 generation, large-scale text-to-image synthesis, and image editing tasks. Results show that SNCE significantly improves convergence speed and overall generation quality compared to standard cross-entropy objectives.

SNCE : Supervision géométriquement informée pour la génération d'images discrètes évolutive

SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation

Résumé

Support