DINO-SAE: 高忠実度画像再構成と生成のためのDINO球面オートエンコーダ
DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation
January 30, 2026
著者: Hun Chang, Byunghee Cha, Jong Chul Ye
cs.AI
要旨
近年、DINOのような事前学習済み視覚基盤モデル(VFM)を生成的オートエンコーダに応用する研究が進められ、優れた生成性能が示されている。しかし、既存の手法では高周波詳細の喪失により、再構成の忠実性が制限されることが多い。本研究では、意味表現とピクセルレベルの再構成を橋渡しするフレームワークであるDINO球面オートエンコーダ(DINO-SAE)を提案する。我々の重要な知見は、対比学習による表現における意味情報は主に特徴ベクトルの方向に符号化されており、厳密な大きさの一致を強制することが、エンコーダによる微細な詳細の保存を妨げる可能性があることである。この問題に対処するため、局所的な構造とテクスチャの保存を強化する階層的畳み込みパッチ埋め込みモジュールと、意味的一貫性を保ちつつ詳細保持のための特徴量の大きさの柔軟性を許容するコサイン類似度アライメント目標関数を導入する。さらに、自己教師あり学習に基づく基盤モデルの表現が本質的に超球面上に存在するという観察を活用し、この球面潜在多様体上で直接Diffusion Transformer(DiT)を学習するためにリーマン流れマッチングを採用する。ImageNet-1Kでの実験により、本手法が事前学習済みVFMとの強い意味的整合性を維持しつつ、0.37のrFIDと26.2 dBのPSNRという状態-of-the-artの再構成品質を達成することを実証する。特に、リーマン流れマッチングに基づく我々のDiTは効率的な収束を示し、80エポックで3.47のgFIDを達成した。
English
Recent studies have explored using pretrained Vision Foundation Models (VFMs) such as DINO for generative autoencoders, showing strong generative performance. Unfortunately, existing approaches often suffer from limited reconstruction fidelity due to the loss of high-frequency details. In this work, we present the DINO Spherical Autoencoder (DINO-SAE), a framework that bridges semantic representation and pixel-level reconstruction. Our key insight is that semantic information in contrastive representations is primarily encoded in the direction of feature vectors, while forcing strict magnitude matching can hinder the encoder from preserving fine-grained details. To address this, we introduce Hierarchical Convolutional Patch Embedding module that enhances local structure and texture preservation, and Cosine Similarity Alignment objective that enforces semantic consistency while allowing flexible feature magnitudes for detail retention. Furthermore, leveraging the observation that SSL-based foundation model representations intrinsically lie on a hypersphere, we employ Riemannian Flow Matching to train a Diffusion Transformer (DiT) directly on this spherical latent manifold. Experiments on ImageNet-1K demonstrate that our approach achieves state-of-the-art reconstruction quality, reaching 0.37 rFID and 26.2 dB PSNR, while maintaining strong semantic alignment to the pretrained VFM. Notably, our Riemannian Flow Matching-based DiT exhibits efficient convergence, achieving a gFID of 3.47 at 80 epochs.