GigaTok: Масштабирование визуальных токенизаторов до 3 миллиардов параметров для авторегрессивной генерации изображений

Аннотация

В авторегрессионной (AR) генерации изображений визуальные токенизаторы сжимают изображения в компактные дискретные латентные токены, что позволяет эффективно обучать последующие авторегрессионные модели для визуальной генерации через предсказание следующего токена. Хотя масштабирование визуальных токенизаторов улучшает качество реконструкции изображений, оно часто ухудшает качество последующей генерации — проблема, которая недостаточно освещена в существующей литературе. Чтобы решить эту задачу, мы представляем GigaTok — первый подход, который одновременно улучшает реконструкцию изображений, генерацию и обучение представлений при масштабировании визуальных токенизаторов. Мы выявляем растущую сложность латентного пространства как ключевой фактор, стоящий за дилеммой реконструкции и генерации. Для смягчения этого эффекта мы предлагаем семантическую регуляризацию, которая согласует признаки токенизатора с семантически согласованными признаками из предварительно обученного визуального энкодера. Это ограничение предотвращает чрезмерную сложность латентного пространства при масштабировании, обеспечивая последовательные улучшения как в реконструкции, так и в последующей авторегрессионной генерации. Основываясь на семантической регуляризации, мы исследуем три ключевых практики для масштабирования токенизаторов: (1) использование 1D токенизаторов для лучшей масштабируемости, (2) приоритет масштабирования декодера при расширении как энкодера, так и декодера и (3) применение энтропийной потери для стабилизации обучения токенизаторов с миллиардами параметров. Масштабируя до 3 миллиардов параметров, GigaTok достигает передовых результатов в реконструкции, последующей AR-генерации и качестве AR-представлений.

English

In autoregressive (AR) image generation, visual tokenizers compress images into compact discrete latent tokens, enabling efficient training of downstream autoregressive models for visual generation via next-token prediction. While scaling visual tokenizers improves image reconstruction quality, it often degrades downstream generation quality -- a challenge not adequately addressed in existing literature. To address this, we introduce GigaTok, the first approach to simultaneously improve image reconstruction, generation, and representation learning when scaling visual tokenizers. We identify the growing complexity of latent space as the key factor behind the reconstruction vs. generation dilemma. To mitigate this, we propose semantic regularization, which aligns tokenizer features with semantically consistent features from a pre-trained visual encoder. This constraint prevents excessive latent space complexity during scaling, yielding consistent improvements in both reconstruction and downstream autoregressive generation. Building on semantic regularization, we explore three key practices for scaling tokenizers:(1) using 1D tokenizers for better scalability, (2) prioritizing decoder scaling when expanding both encoder and decoder, and (3) employing entropy loss to stabilize training for billion-scale tokenizers. By scaling to 3 space billion parameters, GigaTok achieves state-of-the-art performance in reconstruction, downstream AR generation, and downstream AR representation quality.

GigaTok: Масштабирование визуальных токенизаторов до 3 миллиардов параметров для авторегрессивной генерации изображений

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Аннотация

Support