Adaptación de Representaciones Autosupervisadas como un Espacio Latente para la Generación Eficiente
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation
October 16, 2025
Autores: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer
cs.AI
Resumen
Presentamos Representation Tokenizer (RepTok), un marco de modelado generativo que representa una imagen utilizando un único token latente continuo obtenido a partir de transformadores de visión auto-supervisados. Basándonos en un codificador SSL preentrenado, ajustamos únicamente la incrustación semántica del token y lo emparejamos con un decodificador generativo entrenado conjuntamente utilizando un objetivo estándar de emparejamiento de flujo. Esta adaptación enriquece el token con detalles de bajo nivel relevantes para la reconstrucción, permitiendo una reconstrucción fiel de la imagen. Para preservar la geometría favorable del espacio SSL original, añadimos una pérdida de similitud coseno que regulariza el token adaptado, asegurando que el espacio latente permanezca suave y adecuado para la generación. Nuestra formulación de un solo token resuelve las redundancias espaciales de los espacios latentes 2D y reduce significativamente los costos de entrenamiento. A pesar de su simplicidad y eficiencia, RepTok logra resultados competitivos en la generación condicionada por clases en ImageNet y se extiende naturalmente a la síntesis de texto a imagen, alcanzando un rendimiento competitivo en cero-shot en MS-COCO bajo presupuestos de entrenamiento extremadamente limitados. Nuestros hallazgos destacan el potencial de las representaciones SSL ajustadas como espacios latentes compactos y efectivos para el modelado generativo eficiente.
English
We introduce Representation Tokenizer (RepTok), a generative modeling
framework that represents an image using a single continuous latent token
obtained from self-supervised vision transformers. Building on a pre-trained
SSL encoder, we fine-tune only the semantic token embedding and pair it with a
generative decoder trained jointly using a standard flow matching objective.
This adaptation enriches the token with low-level, reconstruction-relevant
details, enabling faithful image reconstruction. To preserve the favorable
geometry of the original SSL space, we add a cosine-similarity loss that
regularizes the adapted token, ensuring the latent space remains smooth and
suitable for generation. Our single-token formulation resolves spatial
redundancies of 2D latent spaces and significantly reduces training costs.
Despite its simplicity and efficiency, RepTok achieves competitive results on
class-conditional ImageNet generation and naturally extends to text-to-image
synthesis, reaching competitive zero-shot performance on MS-COCO under
extremely limited training budgets. Our findings highlight the potential of
fine-tuned SSL representations as compact and effective latent spaces for
efficient generative modeling.