SNCE: Supervisión con Conciencia Geométrica para la Generación Discreta de Imágenes Escalable

Resumen

Los avances recientes en generación discreta de imágenes han demostrado que escalar el tamaño del codebook VQ mejora significativamente la fidelidad de la reconstrucción. Sin embargo, entrenar modelos generativos con un codebook VQ grande sigue siendo un desafío, ya que normalmente requiere modelos de mayor tamaño y ciclos de entrenamiento más prolongados. En este trabajo, proponemos la Minimización de la Entropía Cruzada del Vecino Estocástico (SNCE), un objetivo de entrenamiento novedoso diseñado para abordar los desafíos de optimización de los generadores de imágenes discretas con codebooks grandes. En lugar de supervisar el modelo con un objetivo one-hot rígido, SNCE construye una distribución categorial suave sobre un conjunto de tokens vecinos. La probabilidad asignada a cada token es proporcional a la proximidad entre su code embedding y el embedding de la imagen de referencia, incentivando al modelo a capturar una estructura geométrica semánticamente significativa en el espacio de embedding cuantizado. Realizamos experimentos exhaustivos en generación condicionada por clases en ImageNet-256, síntesis de texto a imagen a gran escala y tareas de edición de imágenes. Los resultados muestran que SNCE mejora significativamente la velocidad de convergencia y la calidad general de la generación en comparación con los objetivos de entropía cruzada estándar.

English

Recent advancements in discrete image generation showed that scaling the VQ codebook size significantly improves reconstruction fidelity. However, training generative models with a large VQ codebook remains challenging, typically requiring larger model size and a longer training schedule. In this work, we propose Stochastic Neighbor Cross Entropy Minimization (SNCE), a novel training objective designed to address the optimization challenges of large-codebook discrete image generators. Instead of supervising the model with a hard one-hot target, SNCE constructs a soft categorical distribution over a set of neighboring tokens. The probability assigned to each token is proportional to the proximity between its code embedding and the ground-truth image embedding, encouraging the model to capture semantically meaningful geometric structure in the quantized embedding space. We conduct extensive experiments across class-conditional ImageNet-256 generation, large-scale text-to-image synthesis, and image editing tasks. Results show that SNCE significantly improves convergence speed and overall generation quality compared to standard cross-entropy objectives.

SNCE: Supervisión con Conciencia Geométrica para la Generación Discreta de Imágenes Escalable

SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation

Resumen

Support