SNCE: Geometriebewuste Supervisie voor Schaalbare Discrete Beeldgeneratie

Samenvatting

Recente vooruitgang in discrete beeldgeneratie heeft aangetoond dat het opschalen van de VQ-codeboekgrootte de reconstructiekwaliteit aanzienlijk verbetert. Het trainen van generatieve modellen met een groot VQ-codeboek blijft echter uitdagend, doorgaans vereist dit een grotere modelomvang en een langere trainingsduur. In dit werk stellen we Stochastic Neighbor Cross Entropy Minimization (SNCE) voor, een nieuwe trainingsdoelstelling die is ontworpen om de optimalisatie-uitdagingen van discrete beeldgeneratoren met grote codeboeken aan te pakken. In plaats van het model te sturen met een harde one-hot-doelwaarde, construeert SNCE een zachte categorische verdeling over een reeks naburige tokens. De waarschijnlijkheid die aan elk token wordt toegekend, is evenredig met de nabijheid tussen de code-embedding en de werkelijke beeld-embedding, waardoor het model wordt aangemoedigd om semantisch betekenisvolle geometrische structuren in de gekwantiseerde embeddingruimte te leren. We voeren uitgebreide experimenten uit op het gebied van klasse-conditonele ImageNet-256-generatie, grootschalige tekst-naar-beeldsynthese en beeldbewerkingstaken. De resultaten tonen aan dat SNCE de convergentiesnelheid en de algehele generatiekwaliteit aanzienlijk verbetert in vergelijking met standaard cross-entropy-doelstellingen.

English

Recent advancements in discrete image generation showed that scaling the VQ codebook size significantly improves reconstruction fidelity. However, training generative models with a large VQ codebook remains challenging, typically requiring larger model size and a longer training schedule. In this work, we propose Stochastic Neighbor Cross Entropy Minimization (SNCE), a novel training objective designed to address the optimization challenges of large-codebook discrete image generators. Instead of supervising the model with a hard one-hot target, SNCE constructs a soft categorical distribution over a set of neighboring tokens. The probability assigned to each token is proportional to the proximity between its code embedding and the ground-truth image embedding, encouraging the model to capture semantically meaningful geometric structure in the quantized embedding space. We conduct extensive experiments across class-conditional ImageNet-256 generation, large-scale text-to-image synthesis, and image editing tasks. Results show that SNCE significantly improves convergence speed and overall generation quality compared to standard cross-entropy objectives.

SNCE: Geometriebewuste Supervisie voor Schaalbare Discrete Beeldgeneratie

SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation

Samenvatting

Support