Anpassung selbstüberwachter Repräsentationen als latenter Raum für effiziente Generierung

papers.abstract

Wir stellen den Representation Tokenizer (RepTok) vor, ein generatives Modellierungsframework, das ein Bild mithilfe eines einzelnen kontinuierlichen latenten Tokens darstellt, der aus selbstüberwachten Vision-Transformern gewonnen wird. Aufbauend auf einem vortrainierten SSL-Encoder feintunen wir nur die semantische Token-Einbettung und kombinieren sie mit einem generativen Decoder, der gemeinsam mit einem standardmäßigen Flow-Matching-Ziel trainiert wird. Diese Anpassung bereichert den Token mit niedrigauflösenden, rekonstruktionsrelevanten Details, wodurch eine treue Bildrekonstruktion ermöglicht wird. Um die vorteilhafte Geometrie des ursprünglichen SSL-Raums zu bewahren, fügen wir einen Kosinus-Ähnlichkeitsverlust hinzu, der den angepassten Token regularisiert und sicherstellt, dass der latente Raum glatt und für die Generierung geeignet bleibt. Unsere Einzel-Token-Formulierung löst räumliche Redundanzen von 2D-latenten Räumen und reduziert die Trainingskosten erheblich. Trotz seiner Einfachheit und Effizienz erzielt RepTok wettbewerbsfähige Ergebnisse bei der klassenbedingten ImageNet-Generierung und lässt sich natürlich auf die Text-zu-Bild-Synthese erweitern, wobei unter extrem begrenzten Trainingsbudgets wettbewerbsfähige Zero-Shot-Leistungen auf MS-COCO erreicht werden. Unsere Ergebnisse unterstreichen das Potenzial feinabgestimmter SSL-Repräsentationen als kompakte und effektive latente Räume für effiziente generative Modellierung.

English

We introduce Representation Tokenizer (RepTok), a generative modeling framework that represents an image using a single continuous latent token obtained from self-supervised vision transformers. Building on a pre-trained SSL encoder, we fine-tune only the semantic token embedding and pair it with a generative decoder trained jointly using a standard flow matching objective. This adaptation enriches the token with low-level, reconstruction-relevant details, enabling faithful image reconstruction. To preserve the favorable geometry of the original SSL space, we add a cosine-similarity loss that regularizes the adapted token, ensuring the latent space remains smooth and suitable for generation. Our single-token formulation resolves spatial redundancies of 2D latent spaces and significantly reduces training costs. Despite its simplicity and efficiency, RepTok achieves competitive results on class-conditional ImageNet generation and naturally extends to text-to-image synthesis, reaching competitive zero-shot performance on MS-COCO under extremely limited training budgets. Our findings highlight the potential of fine-tuned SSL representations as compact and effective latent spaces for efficient generative modeling.

Anpassung selbstüberwachter Repräsentationen als latenter Raum für effiziente Generierung

Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

papers.abstract

Support