Модели Vision Foundation как эффективные визуальные токенизаторы для авторегрессивной генерации изображений
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation
July 11, 2025
Авторы: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI
Аннотация
Используя мощные представления предобученных базовых моделей для обработки изображений, традиционно применяемых для визуального анализа, мы исследуем новое направление: создание токенизатора изображений непосредственно на основе таких моделей, что является малоизученной областью. В частности, мы используем замороженную базовую модель обработки изображений в качестве энкодера нашего токенизатора. Для повышения его эффективности мы вводим два ключевых компонента: (1) фреймворк регионально-адаптивного квантования, который уменьшает избыточность в предобученных признаках на регулярных 2D-сетках, и (2) цель семантической реконструкции, которая согласует выходы токенизатора с представлениями базовой модели для сохранения семантической точности. На основе этих решений наш предложенный токенизатор изображений, VFMTok, демонстрирует значительные улучшения в качестве реконструкции и генерации изображений, а также повышает эффективность токенизации. Он также ускоряет авторегрессивную (AR) генерацию, достигая значения gFID 2.07 на тестах ImageNet, ускоряя сходимость модели в три раза и обеспечивая высококачественный синтез с учетом классов без необходимости использования метода генерации без классификатора (CFG). Код будет опубликован в открытом доступе для пользы сообщества.
English
Leveraging the powerful representations of pre-trained vision foundation
models -- traditionally used for visual comprehension -- we explore a novel
direction: building an image tokenizer directly atop such models, a largely
underexplored area. Specifically, we employ a frozen vision foundation model as
the encoder of our tokenizer. To enhance its effectiveness, we introduce two
key components: (1) a region-adaptive quantization framework that reduces
redundancy in the pre-trained features on regular 2D grids, and (2) a semantic
reconstruction objective that aligns the tokenizer's outputs with the
foundation model's representations to preserve semantic fidelity. Based on
these designs, our proposed image tokenizer, VFMTok, achieves substantial
improvements in image reconstruction and generation quality, while also
enhancing token efficiency. It further boosts autoregressive (AR) generation --
achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model
convergence by three times, and enabling high-fidelity class-conditional
synthesis without the need for classifier-free guidance (CFG). The code will be
released publicly to benefit the community.