ChatPaper.aiChatPaper

효율적 생성을 위한 잠재 공간으로서 자기 지도 표현의 적응

Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

October 16, 2025
저자: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer
cs.AI

초록

본 논문에서는 자기 지도 학습(self-supervised learning, SSL) 비전 트랜스포머로부터 얻은 단일 연속 잠재 토큰을 사용하여 이미지를 표현하는 생성 모델링 프레임워크인 Representation Tokenizer(RepTok)를 소개한다. 사전 학습된 SSL 인코더를 기반으로, 우리는 의미 토큰 임베딩만을 미세 조정하고 이를 표준 플로우 매칭(flow matching) 목적 함수로 공동 학습된 생성 디코더와 결합한다. 이러한 적응은 토큰에 저수준의 재구성 관련 세부 정보를 풍부하게 함으로써 충실한 이미지 재구성을 가능하게 한다. 또한, 원본 SSL 공간의 유리한 기하학적 특성을 보존하기 위해 코사인 유사도 손실을 추가하여 적응된 토큰을 정규화하고, 잠재 공간이 매끄럽고 생성에 적합하도록 유지한다. 단일 토큰 기반의 이 접근법은 2D 잠재 공간의 공간적 중복성을 해결하고 학습 비용을 크게 절감한다. 단순성과 효율성에도 불구하고, RepTok은 클래스 조건부 ImageNet 생성에서 경쟁력 있는 결과를 달성하며, 극도로 제한된 학습 예산 하에서 MS-COCO에서의 제로샷(zero-shot) 텍스트-이미지 합성에서도 경쟁력 있는 성능을 보인다. 본 연구 결과는 미세 조정된 SSL 표현이 효율적인 생성 모델링을 위한 간결하고 효과적인 잠재 공간으로서의 잠재력을 강조한다.
English
We introduce Representation Tokenizer (RepTok), a generative modeling framework that represents an image using a single continuous latent token obtained from self-supervised vision transformers. Building on a pre-trained SSL encoder, we fine-tune only the semantic token embedding and pair it with a generative decoder trained jointly using a standard flow matching objective. This adaptation enriches the token with low-level, reconstruction-relevant details, enabling faithful image reconstruction. To preserve the favorable geometry of the original SSL space, we add a cosine-similarity loss that regularizes the adapted token, ensuring the latent space remains smooth and suitable for generation. Our single-token formulation resolves spatial redundancies of 2D latent spaces and significantly reduces training costs. Despite its simplicity and efficiency, RepTok achieves competitive results on class-conditional ImageNet generation and naturally extends to text-to-image synthesis, reaching competitive zero-shot performance on MS-COCO under extremely limited training budgets. Our findings highlight the potential of fine-tuned SSL representations as compact and effective latent spaces for efficient generative modeling.
PDF22October 20, 2025