Adapter les représentations auto-supervisées comme espace latent pour une génération efficace
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation
October 16, 2025
papers.authors: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer
cs.AI
papers.abstract
Nous présentons Representation Tokenizer (RepTok), un cadre de modélisation générative qui représente une image à l'aide d'un unique token latent continu obtenu à partir de transformateurs visuels auto-supervisés. En nous appuyant sur un encodeur SSL pré-entraîné, nous affinons uniquement l'embedding sémantique du token et l'associons à un décodeur génératif entraîné conjointement à l'aide d'un objectif standard de flow matching. Cette adaptation enrichit le token avec des détails de bas niveau pertinents pour la reconstruction, permettant une reconstruction fidèle de l'image. Pour préserver la géométrie favorable de l'espace SSL original, nous ajoutons une perte de similarité cosinus qui régularise le token adapté, garantissant que l'espace latent reste lisse et adapté à la génération. Notre formulation à un seul token résout les redondances spatiales des espaces latents 2D et réduit significativement les coûts d'entraînement. Malgré sa simplicité et son efficacité, RepTok obtient des résultats compétitifs en génération conditionnée par classe sur ImageNet et s'étend naturellement à la synthèse texte-image, atteignant des performances compétitives en zero-shot sur MS-COCO avec des budgets d'entraînement extrêmement limités. Nos résultats mettent en lumière le potentiel des représentations SSL affinées comme espaces latents compacts et efficaces pour une modélisation générative efficiente.
English
We introduce Representation Tokenizer (RepTok), a generative modeling
framework that represents an image using a single continuous latent token
obtained from self-supervised vision transformers. Building on a pre-trained
SSL encoder, we fine-tune only the semantic token embedding and pair it with a
generative decoder trained jointly using a standard flow matching objective.
This adaptation enriches the token with low-level, reconstruction-relevant
details, enabling faithful image reconstruction. To preserve the favorable
geometry of the original SSL space, we add a cosine-similarity loss that
regularizes the adapted token, ensuring the latent space remains smooth and
suitable for generation. Our single-token formulation resolves spatial
redundancies of 2D latent spaces and significantly reduces training costs.
Despite its simplicity and efficiency, RepTok achieves competitive results on
class-conditional ImageNet generation and naturally extends to text-to-image
synthesis, reaching competitive zero-shot performance on MS-COCO under
extremely limited training budgets. Our findings highlight the potential of
fine-tuned SSL representations as compact and effective latent spaces for
efficient generative modeling.