SNCE: Supervisão Consciente da Geometria para Geração Escalável de Imagens Discretas

Resumo

Avances recentes na geração discreta de imagens demonstraram que a ampliação do tamanho do codebook VQ melhora significativamente a fidelidade de reconstrução. No entanto, o treinamento de modelos generativos com um codebook VQ grande permanece desafiador, geralmente exigindo modelos de maior dimensão e cronogramas de treinamento mais longos. Neste trabalho, propomos a Minimização da Entropia Cruzada do Vizinho Estocástico (SNCE), um novo objetivo de treinamento concebido para abordar os desafios de otimização de geradores de imagem discreta com codebooks grandes. Em vez de supervisionar o modelo com um alvo rígido one-hot, a SNCE constrói uma distribuição categórica suave sobre um conjunto de tokens vizinhos. A probabilidade atribuída a cada token é proporcional à proximidade entre a sua incorporação de código e a incorporação da imagem verdadeira, incentivando o modelo a capturar uma estrutura geométrica semanticamente significativa no espaço de incorporação quantizado. Realizamos experiências extensas em tarefas de geração condicionada por classe no ImageNet-256, síntese de texto para imagem em larga escala e edição de imagens. Os resultados mostram que a SNCE melhora significativamente a velocidade de convergência e a qualidade geral de geração em comparação com os objetivos padrão de entropia cruzada.

English

Recent advancements in discrete image generation showed that scaling the VQ codebook size significantly improves reconstruction fidelity. However, training generative models with a large VQ codebook remains challenging, typically requiring larger model size and a longer training schedule. In this work, we propose Stochastic Neighbor Cross Entropy Minimization (SNCE), a novel training objective designed to address the optimization challenges of large-codebook discrete image generators. Instead of supervising the model with a hard one-hot target, SNCE constructs a soft categorical distribution over a set of neighboring tokens. The probability assigned to each token is proportional to the proximity between its code embedding and the ground-truth image embedding, encouraging the model to capture semantically meaningful geometric structure in the quantized embedding space. We conduct extensive experiments across class-conditional ImageNet-256 generation, large-scale text-to-image synthesis, and image editing tasks. Results show that SNCE significantly improves convergence speed and overall generation quality compared to standard cross-entropy objectives.

SNCE: Supervisão Consciente da Geometria para Geração Escalável de Imagens Discretas

SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation

Resumo

Support