ChatPaper.aiChatPaper

Het aanpassen van zelfgesuperviseerde representaties als een latente ruimte voor efficiënte generatie

Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

October 16, 2025
Auteurs: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer
cs.AI

Samenvatting

We introduceren Representation Tokenizer (RepTok), een generatief modelleerkader dat een afbeelding representeert met behulp van een enkel continu latent token, verkregen uit zelf-superviserende vision transformers. Op basis van een vooraf getrainde SSL-encoder fine-tunen we alleen de semantische token-embedding en combineren deze met een generatieve decoder die gezamenlijk wordt getraind met een standaard flow matching-doelstelling. Deze aanpassing verrijkt het token met laagniveau, reconstructie-relevante details, waardoor een nauwkeurige beeldreconstructie mogelijk wordt. Om de gunstige geometrie van de oorspronkelijke SSL-ruimte te behouden, voegen we een cosine-similarity verlies toe dat het aangepaste token regulariseert, waardoor de latente ruimte glad blijft en geschikt is voor generatie. Onze single-token formulering lost ruimtelijke redundanties van 2D latente ruimtes op en vermindert de trainingskosten aanzienlijk. Ondanks zijn eenvoud en efficiëntie behaalt RepTok competitieve resultaten bij klasse-conditionele ImageNet-generatie en breidt het zich natuurlijk uit tot tekst-naar-beeld synthese, waarbij het competitieve zero-shot prestaties bereikt op MS-COCO onder extreem beperkte trainingsbudgetten. Onze bevindingen benadrukken het potentieel van fine-tuned SSL-representaties als compacte en effectieve latente ruimtes voor efficiënte generatieve modellering.
English
We introduce Representation Tokenizer (RepTok), a generative modeling framework that represents an image using a single continuous latent token obtained from self-supervised vision transformers. Building on a pre-trained SSL encoder, we fine-tune only the semantic token embedding and pair it with a generative decoder trained jointly using a standard flow matching objective. This adaptation enriches the token with low-level, reconstruction-relevant details, enabling faithful image reconstruction. To preserve the favorable geometry of the original SSL space, we add a cosine-similarity loss that regularizes the adapted token, ensuring the latent space remains smooth and suitable for generation. Our single-token formulation resolves spatial redundancies of 2D latent spaces and significantly reduces training costs. Despite its simplicity and efficiency, RepTok achieves competitive results on class-conditional ImageNet generation and naturally extends to text-to-image synthesis, reaching competitive zero-shot performance on MS-COCO under extremely limited training budgets. Our findings highlight the potential of fine-tuned SSL representations as compact and effective latent spaces for efficient generative modeling.
PDF22October 20, 2025