SNCE: Geometriebewusste Überwachung für skalierbare diskrete Bildgenerierung

Zusammenfassung

Jüngste Fortschritte in der diskreten Bildgenerierung haben gezeigt, dass eine Vergrößerung der VQ-Codebuchgröße die Rekonstruktionstreue erheblich verbessert. Das Training generativer Modelle mit einem großen VQ-Codebuch bleibt jedoch herausfordernd, da typischerweise eine größere Modellgröße und ein längerer Trainingszeitraum erforderlich sind. In dieser Arbeit schlagen wir die Minimierung der stochastischen Nachbar-Cross-Entropy (SNCE) vor, ein neuartiges Trainingsziel, das entwickelt wurde, um die Optimierungsprobleme von diskreten Bildgeneratoren mit großem Codebuch zu adressieren. Anstatt das Modell mit einem harten One-Hot-Zielwert zu steuern, konstruiert SNCE eine weiche kategorische Verteilung über eine Menge benachbarter Tokens. Die jedem Token zugewiesene Wahrscheinlichkeit ist proportional zur Nähe zwischen seinem Code-Embedding und dem Ground-Truth-Bildembedding, was das Modell dazu anregt, semantisch bedeutsame geometrische Strukturen im quantisierten Embedding-Raum zu erfassen. Wir führen umfangreiche Experimente in den Bereichen klassenbedingte ImageNet-256-Generierung, großskalige Text-zu-Bild-Synthese und Bildbearbeitungsaufgaben durch. Die Ergebnisse zeigen, dass SNCE im Vergleich zu standardmäßigen Cross-Entropy-Zielen die Konvergenzgeschwindigkeit und die allgemeine Generierungsqualität signifikant verbessert.

English

Recent advancements in discrete image generation showed that scaling the VQ codebook size significantly improves reconstruction fidelity. However, training generative models with a large VQ codebook remains challenging, typically requiring larger model size and a longer training schedule. In this work, we propose Stochastic Neighbor Cross Entropy Minimization (SNCE), a novel training objective designed to address the optimization challenges of large-codebook discrete image generators. Instead of supervising the model with a hard one-hot target, SNCE constructs a soft categorical distribution over a set of neighboring tokens. The probability assigned to each token is proportional to the proximity between its code embedding and the ground-truth image embedding, encouraging the model to capture semantically meaningful geometric structure in the quantized embedding space. We conduct extensive experiments across class-conditional ImageNet-256 generation, large-scale text-to-image synthesis, and image editing tasks. Results show that SNCE significantly improves convergence speed and overall generation quality compared to standard cross-entropy objectives.

SNCE: Geometriebewusste Überwachung für skalierbare diskrete Bildgenerierung

SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation

Zusammenfassung

Support