Anpassung selbstüberwachter Repräsentationen als latenter Raum für effiziente Generierung
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation
October 16, 2025
papers.authors: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer
cs.AI
papers.abstract
Wir stellen den Representation Tokenizer (RepTok) vor, ein generatives Modellierungsframework, das ein Bild mithilfe eines einzelnen kontinuierlichen latenten Tokens darstellt, der aus selbstüberwachten Vision-Transformern gewonnen wird. Aufbauend auf einem vortrainierten SSL-Encoder feintunen wir nur die semantische Token-Einbettung und kombinieren sie mit einem generativen Decoder, der gemeinsam mit einem standardmäßigen Flow-Matching-Ziel trainiert wird. Diese Anpassung bereichert den Token mit niedrigauflösenden, rekonstruktionsrelevanten Details, wodurch eine treue Bildrekonstruktion ermöglicht wird. Um die vorteilhafte Geometrie des ursprünglichen SSL-Raums zu bewahren, fügen wir einen Kosinus-Ähnlichkeitsverlust hinzu, der den angepassten Token regularisiert und sicherstellt, dass der latente Raum glatt und für die Generierung geeignet bleibt. Unsere Einzel-Token-Formulierung löst räumliche Redundanzen von 2D-latenten Räumen und reduziert die Trainingskosten erheblich. Trotz seiner Einfachheit und Effizienz erzielt RepTok wettbewerbsfähige Ergebnisse bei der klassenbedingten ImageNet-Generierung und lässt sich natürlich auf die Text-zu-Bild-Synthese erweitern, wobei unter extrem begrenzten Trainingsbudgets wettbewerbsfähige Zero-Shot-Leistungen auf MS-COCO erreicht werden. Unsere Ergebnisse unterstreichen das Potenzial feinabgestimmter SSL-Repräsentationen als kompakte und effektive latente Räume für effiziente generative Modellierung.
English
We introduce Representation Tokenizer (RepTok), a generative modeling
framework that represents an image using a single continuous latent token
obtained from self-supervised vision transformers. Building on a pre-trained
SSL encoder, we fine-tune only the semantic token embedding and pair it with a
generative decoder trained jointly using a standard flow matching objective.
This adaptation enriches the token with low-level, reconstruction-relevant
details, enabling faithful image reconstruction. To preserve the favorable
geometry of the original SSL space, we add a cosine-similarity loss that
regularizes the adapted token, ensuring the latent space remains smooth and
suitable for generation. Our single-token formulation resolves spatial
redundancies of 2D latent spaces and significantly reduces training costs.
Despite its simplicity and efficiency, RepTok achieves competitive results on
class-conditional ImageNet generation and naturally extends to text-to-image
synthesis, reaching competitive zero-shot performance on MS-COCO under
extremely limited training budgets. Our findings highlight the potential of
fine-tuned SSL representations as compact and effective latent spaces for
efficient generative modeling.