Adattare le rappresentazioni auto-supervisionate come spazio latente per una generazione efficiente
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation
October 16, 2025
Autori: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer
cs.AI
Abstract
Introduciamo Representation Tokenizer (RepTok), un framework di modellazione generativa che rappresenta un'immagine utilizzando un singolo token latente continuo ottenuto da trasformatori visivi auto-supervisionati. Basandoci su un codificatore SSL pre-addestrato, ottimizziamo solo l'embedding del token semantico e lo associamo a un decodificatore generativo addestrato congiuntamente utilizzando un obiettivo di flow matching standard. Questa adattazione arricchisce il token con dettagli di basso livello rilevanti per la ricostruzione, consentendo una ricostruzione fedele dell'immagine. Per preservare la geometria favorevole dello spazio SSL originale, aggiungiamo una perdita di similarità coseno che regolarizza il token adattato, garantendo che lo spazio latente rimanga liscio e adatto alla generazione. La nostra formulazione a singolo token risolve le ridondanze spaziali degli spazi latenti 2D e riduce significativamente i costi di addestramento. Nonostante la sua semplicità ed efficienza, RepTok ottiene risultati competitivi nella generazione condizionata a classi su ImageNet e si estende naturalmente alla sintesi da testo a immagine, raggiungendo prestazioni competitive zero-shot su MS-COCO con budget di addestramento estremamente limitati. I nostri risultati evidenziano il potenziale delle rappresentazioni SSL ottimizzate come spazi latenti compatti ed efficaci per una modellazione generativa efficiente.
English
We introduce Representation Tokenizer (RepTok), a generative modeling
framework that represents an image using a single continuous latent token
obtained from self-supervised vision transformers. Building on a pre-trained
SSL encoder, we fine-tune only the semantic token embedding and pair it with a
generative decoder trained jointly using a standard flow matching objective.
This adaptation enriches the token with low-level, reconstruction-relevant
details, enabling faithful image reconstruction. To preserve the favorable
geometry of the original SSL space, we add a cosine-similarity loss that
regularizes the adapted token, ensuring the latent space remains smooth and
suitable for generation. Our single-token formulation resolves spatial
redundancies of 2D latent spaces and significantly reduces training costs.
Despite its simplicity and efficiency, RepTok achieves competitive results on
class-conditional ImageNet generation and naturally extends to text-to-image
synthesis, reaching competitive zero-shot performance on MS-COCO under
extremely limited training budgets. Our findings highlight the potential of
fine-tuned SSL representations as compact and effective latent spaces for
efficient generative modeling.