ChatPaper.aiChatPaper

Адаптация самоконтролируемых представлений в качестве латентного пространства для эффективной генерации

Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

October 16, 2025
Авторы: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer
cs.AI

Аннотация

Мы представляем Representation Tokenizer (RepTok) — генеративную модель, которая представляет изображение с помощью одного непрерывного латентного токена, полученного из самоконтролируемых визионных трансформеров. Основываясь на предварительно обученном SSL-энкодере, мы дообучаем только семантическое вложение токена и сочетаем его с генеративным декодером, обученным совместно с использованием стандартной задачи согласования потоков. Эта адаптация обогащает токен низкоуровневыми деталями, важными для реконструкции, что позволяет достичь точного восстановления изображения. Чтобы сохранить благоприятную геометрию исходного SSL-пространства, мы добавляем косинусную функцию потерь, которая регуляризует адаптированный токен, обеспечивая гладкость латентного пространства и его пригодность для генерации. Наша формулировка с одним токеном устраняет пространственные избыточности 2D латентных пространств и значительно снижает затраты на обучение. Несмотря на простоту и эффективность, RepTok демонстрирует конкурентоспособные результаты в генерации изображений на основе классов ImageNet и естественным образом расширяется до синтеза изображений по тексту, достигая конкурентоспособной производительности в условиях нулевого обучения на MS-COCO при крайне ограниченных бюджетах на обучение. Наши результаты подчеркивают потенциал дообученных SSL-представлений как компактных и эффективных латентных пространств для эффективного генеративного моделирования.
English
We introduce Representation Tokenizer (RepTok), a generative modeling framework that represents an image using a single continuous latent token obtained from self-supervised vision transformers. Building on a pre-trained SSL encoder, we fine-tune only the semantic token embedding and pair it with a generative decoder trained jointly using a standard flow matching objective. This adaptation enriches the token with low-level, reconstruction-relevant details, enabling faithful image reconstruction. To preserve the favorable geometry of the original SSL space, we add a cosine-similarity loss that regularizes the adapted token, ensuring the latent space remains smooth and suitable for generation. Our single-token formulation resolves spatial redundancies of 2D latent spaces and significantly reduces training costs. Despite its simplicity and efficiency, RepTok achieves competitive results on class-conditional ImageNet generation and naturally extends to text-to-image synthesis, reaching competitive zero-shot performance on MS-COCO under extremely limited training budgets. Our findings highlight the potential of fine-tuned SSL representations as compact and effective latent spaces for efficient generative modeling.
PDF22October 20, 2025