Сквозная авторегрессионная генерация изображений с помощью 1D семантического токенизатора

Аннотация

Авторегрессионное моделирование изображений опирается на визуальные токенизаторы для сжатия изображений в компактные латентные представления. Мы разрабатываем сквозной конвейер обучения, который совместно оптимизирует реконструкцию и генерацию, обеспечивая прямое влияние результатов генерации на токенизатор. Это отличается от предыдущих двухэтапных подходов, где токенизаторы и генеративные модели обучаются раздельно. Мы также исследуем использование фоновых моделей компьютерного зрения для улучшения одномерных токенизаторов в авторегрессионном моделировании. Наша авторегрессионная генеративная модель демонстрирует высокие эмпирические результаты, включая рекордный показатель FID 1.48 без использования методов управления на задаче генерации ImageNet 256×256.

English

Autoregressive image modeling relies on visual tokenizers to compress images into compact latent representations. We design an end-to-end training pipeline that jointly optimizes reconstruction and generation, enabling direct supervision from generation results to the tokenizer. This contrasts with prior two-stage approaches that train tokenizers and generative models separately. We further investigate leveraging vision foundation models to improve 1D tokenizers for autoregressive modeling. Our autoregressive generative model achieves strong empirical results, including a state-of-the-art FID score of 1.48 without guidance on ImageNet 256x256 generation.

Сквозная авторегрессионная генерация изображений с помощью 1D семантического токенизатора

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Аннотация

Support