MergeVQ: Единая структура для визуальной генерации и представления с разделенным объединением и квантованием токеновMergeVQ: A Unified Framework for Visual Generation and Representation
with Disentangled Token Merging and Quantization
Маскированное моделирование изображений (MIM) с векторным квантованием (VQ) достигло значительных успехов как в самоконтролируемом предварительном обучении, так и в генерации изображений. Однако большинство существующих методов сталкиваются с трудностями в поиске баланса в общем латентном пространстве между качеством генерации, обучением представлений и эффективностью. Чтобы расширить границы этой парадигмы, мы предлагаем MergeVQ, который интегрирует методы объединения токенов в генеративные модели на основе VQ, чтобы устранить разрыв между генерацией изображений и обучением визуальных представлений в единой архитектуре. В процессе предварительного обучения MergeVQ разделяет топ-k семантику от латентного пространства с помощью модуля объединения токенов после блоков самовнимания в кодировщике для последующего квантования без поиска (LFQ) и глобального выравнивания, а затем восстанавливает их детализированные характеристики через кросс-внимание в декодере для реконструкции. Что касается второго этапа генерации, мы представляем MergeAR, который выполняет сжатие KV Cache для эффективного прогнозирования в растровом порядке. Многочисленные эксперименты на ImageNet подтверждают, что MergeVQ как генеративная модель с авторегрессией демонстрирует конкурентоспособные результаты как в задачах обучения визуальных представлений, так и в генерации изображений, сохраняя при этом высокую эффективность работы с токенами и скорость вывода. Код и модель будут доступны по адресу https://apexgen-x.github.io/MergeVQ.