ChatPaper.aiChatPaper

Adaptando Representações Auto-Supervisionadas como um Espaço Latente para Geração Eficiente

Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

October 16, 2025
Autores: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer
cs.AI

Resumo

Apresentamos o Representation Tokenizer (RepTok), um framework de modelagem generativa que representa uma imagem usando um único token latente contínuo obtido de transformers visuais auto-supervisionados. Com base em um codificador SSL pré-treinado, ajustamos apenas o embedding do token semântico e o emparelhamos com um decodificador generativo treinado em conjunto usando um objetivo padrão de correspondência de fluxo. Essa adaptação enriquece o token com detalhes de baixo nível relevantes para reconstrução, permitindo uma reconstrução fiel da imagem. Para preservar a geometria favorável do espaço SSL original, adicionamos uma perda de similaridade cosseno que regulariza o token adaptado, garantindo que o espaço latente permaneça suave e adequado para geração. Nossa formulação de token único resolve redundâncias espaciais de espaços latentes 2D e reduz significativamente os custos de treinamento. Apesar de sua simplicidade e eficiência, o RepTok alcança resultados competitivos na geração condicionada por classe do ImageNet e se estende naturalmente para síntese de texto para imagem, atingindo desempenho competitivo zero-shot no MS-COCO sob orçamentos de treinamento extremamente limitados. Nossas descobertas destacam o potencial das representações SSL ajustadas como espaços latentes compactos e eficazes para modelagem generativa eficiente.
English
We introduce Representation Tokenizer (RepTok), a generative modeling framework that represents an image using a single continuous latent token obtained from self-supervised vision transformers. Building on a pre-trained SSL encoder, we fine-tune only the semantic token embedding and pair it with a generative decoder trained jointly using a standard flow matching objective. This adaptation enriches the token with low-level, reconstruction-relevant details, enabling faithful image reconstruction. To preserve the favorable geometry of the original SSL space, we add a cosine-similarity loss that regularizes the adapted token, ensuring the latent space remains smooth and suitable for generation. Our single-token formulation resolves spatial redundancies of 2D latent spaces and significantly reduces training costs. Despite its simplicity and efficiency, RepTok achieves competitive results on class-conditional ImageNet generation and naturally extends to text-to-image synthesis, reaching competitive zero-shot performance on MS-COCO under extremely limited training budgets. Our findings highlight the potential of fine-tuned SSL representations as compact and effective latent spaces for efficient generative modeling.
PDF22October 20, 2025