ChatPaper.aiChatPaper

DINO-SAE: 고충실도 이미지 재구성 및 생성을 위한 DINO 구형 오토인코더

DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

January 30, 2026
저자: Hun Chang, Byunghee Cha, Jong Chul Ye
cs.AI

초록

최근 연구에서는 DINO와 같은 사전 학습된 비전 파운데이션 모델(VFM)을 생성형 오토인코더에 활용하는 방법을 탐구하며 강력한 생성 성능을 보여주고 있습니다. 그러나 기존 접근법들은 고주파 세부 정보의 손실로 인해 제한된 복원 정확도를 보이는 경우가 많습니다. 본 연구에서는 의미 표현과 픽셀 수준 복원을 연결하는 프레임워크인 DINO 구형 오토인코더(DINO-SAE)를 제안합니다. 우리의 핵심 통찰은 대조적 표현의 의미 정보가 주로 특징 벡터의 방향에 인코딩되는 반면, 엄격한 크기 일치를 강제하면 인코더가 미세한 세부 사항을 보존하는 데 방해가 될 수 있다는 점입니다. 이를 해결하기 위해 지역적 구조와 텍스처 보존을 강화하는 계층적 컨볼루션 패치 임베딩 모듈과, 의미 일관성을 강화하면서 세부 정보 보존을 위한 유연한 특징 크기를 허용하는 코사인 유사도 정렬 목적 함수를 도입했습니다. 더 나아가, SSL 기반 파운데이션 모델 표현이 본질적으로 초구 상에 존재한다는 관찰을 활용하여, 이 구형 잠재 다양체에서 직접 Diffusion Transformer(DiT)를 학습시키기 위해 리만 흐름 매칭을 적용합니다. ImageNet-1K에 대한 실험 결과, 우리의 접근법이 0.37 rFID와 26.2 dB PSNR을 달성하여 최고 수준의 복원 품질을 달성하면서도 사전 학습된 VFM과의 강력한 의미 일관성을 유지함을 입증했습니다. 특히, 우리의 리만 흐름 매칭 기반 DiT는 효율적인 수렴을 보여주며 80 에포크에서 3.47의 gFID를 달성했습니다.
English
Recent studies have explored using pretrained Vision Foundation Models (VFMs) such as DINO for generative autoencoders, showing strong generative performance. Unfortunately, existing approaches often suffer from limited reconstruction fidelity due to the loss of high-frequency details. In this work, we present the DINO Spherical Autoencoder (DINO-SAE), a framework that bridges semantic representation and pixel-level reconstruction. Our key insight is that semantic information in contrastive representations is primarily encoded in the direction of feature vectors, while forcing strict magnitude matching can hinder the encoder from preserving fine-grained details. To address this, we introduce Hierarchical Convolutional Patch Embedding module that enhances local structure and texture preservation, and Cosine Similarity Alignment objective that enforces semantic consistency while allowing flexible feature magnitudes for detail retention. Furthermore, leveraging the observation that SSL-based foundation model representations intrinsically lie on a hypersphere, we employ Riemannian Flow Matching to train a Diffusion Transformer (DiT) directly on this spherical latent manifold. Experiments on ImageNet-1K demonstrate that our approach achieves state-of-the-art reconstruction quality, reaching 0.37 rFID and 26.2 dB PSNR, while maintaining strong semantic alignment to the pretrained VFM. Notably, our Riemannian Flow Matching-based DiT exhibits efficient convergence, achieving a gFID of 3.47 at 80 epochs.
PDF112February 3, 2026