SNCE: Геометрически-осознанный контроль для масштабируемой дискретной генерации изображений

Аннотация

Последние достижения в области дискретной генерации изображений показали, что увеличение размера VQ-кодбука значительно улучшает точность реконструкции. Однако обучение генеративных моделей с большим VQ-кодбуком остается сложной задачей, обычно требующей увеличения размера модели и более длительного графика обучения. В данной работе мы предлагаем минимизацию перекрестной энтропии со стохастическим соседом (Stochastic Neighbor Cross Entropy Minimization, SNCE) — новую функцию потерь, разработанную для решения проблем оптимизации дискретных генераторов изображений с большим кодбуком. Вместо обучения модели с использованием жесткого one-hot таргета, SNCE конструирует мягкое категориальное распределение по набору соседних токенов. Вероятность, назначаемая каждому токену, пропорциональна близости между его кодом-эмбеддингом и эмбеддингом исходного изображения, что побуждает модель улавливать семантически значимую геометрическую структуру в квантованном пространстве эмбеддингов. Мы провели обширные эксперименты в задачах условной генерации на ImageNet-256, крупномасштабного синтеза изображений по тексту и редактирования изображений. Результаты показывают, что SNCE значительно улучшает скорость сходимости и общее качество генерации по сравнению со стандартными функциями перекрестной энтропии.

English

Recent advancements in discrete image generation showed that scaling the VQ codebook size significantly improves reconstruction fidelity. However, training generative models with a large VQ codebook remains challenging, typically requiring larger model size and a longer training schedule. In this work, we propose Stochastic Neighbor Cross Entropy Minimization (SNCE), a novel training objective designed to address the optimization challenges of large-codebook discrete image generators. Instead of supervising the model with a hard one-hot target, SNCE constructs a soft categorical distribution over a set of neighboring tokens. The probability assigned to each token is proportional to the proximity between its code embedding and the ground-truth image embedding, encouraging the model to capture semantically meaningful geometric structure in the quantized embedding space. We conduct extensive experiments across class-conditional ImageNet-256 generation, large-scale text-to-image synthesis, and image editing tasks. Results show that SNCE significantly improves convergence speed and overall generation quality compared to standard cross-entropy objectives.

SNCE: Геометрически-осознанный контроль для масштабируемой дискретной генерации изображений

SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation

Аннотация

Support