ChatPaper.aiChatPaper

DINO-SAE : Autoencodeur Sphérique DINO pour la Reconstruction et la Génération d'Images Haute Fidélité

DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

January 30, 2026
papers.authors: Hun Chang, Byunghee Cha, Jong Chul Ye
cs.AI

papers.abstract

Des études récentes ont exploré l'utilisation de modèles de vision de base (VFMs) préentraînés tels que DINO pour les autoencodeurs génératifs, démontrant de fortes performances génératives. Malheureusement, les approches existantes souffrent souvent d'une fidélité de reconstruction limitée en raison de la perte de détails haute fréquence. Dans ce travail, nous présentons le DINO Spherical Autoencoder (DINO-SAE), un cadre qui établit un pont entre la représentation sémantique et la reconstruction au niveau pixel. Notre idée clé est que l'information sémantique dans les représentations contrastives est principalement encodée dans la direction des vecteurs de caractéristiques, tandis qu'imposer un appariement strict des magnitudes peut empêcher l'encodeur de préserver les détails fins. Pour résoudre ce problème, nous introduisons un module Hiérarchique d'Incorporation de Patchs Convolutifs qui améliore la préservation des structures et textures locales, et un objectif d'Alignement par Similarité Cosinus qui impose la cohérence sémantique tout en permettant des magnitudes de caractéristiques flexibles pour la rétention des détails. De plus, en nous appuyant sur l'observation que les représentations des modèles de base basés sur l'apprentissage auto-supervisé (SSL) résident intrinsèquement sur une hypersphère, nous utilisons le *Riemannian Flow Matching* pour entraîner un *Diffusion Transformer* (DiT) directement sur cette variété latente sphérique. Les expériences sur ImageNet-1K démontrent que notre approche atteint une qualité de reconstruction à la pointe de l'état de l'art, avec un rFID de 0.37 et un PSNR de 26.2 dB, tout en maintenant un fort alignement sémantique avec le VFM préentraîné. Notamment, notre DiT basé sur le *Riemannian Flow Matching* présente une convergence efficace, atteignant un gFID de 3.47 après 80 époques.
English
Recent studies have explored using pretrained Vision Foundation Models (VFMs) such as DINO for generative autoencoders, showing strong generative performance. Unfortunately, existing approaches often suffer from limited reconstruction fidelity due to the loss of high-frequency details. In this work, we present the DINO Spherical Autoencoder (DINO-SAE), a framework that bridges semantic representation and pixel-level reconstruction. Our key insight is that semantic information in contrastive representations is primarily encoded in the direction of feature vectors, while forcing strict magnitude matching can hinder the encoder from preserving fine-grained details. To address this, we introduce Hierarchical Convolutional Patch Embedding module that enhances local structure and texture preservation, and Cosine Similarity Alignment objective that enforces semantic consistency while allowing flexible feature magnitudes for detail retention. Furthermore, leveraging the observation that SSL-based foundation model representations intrinsically lie on a hypersphere, we employ Riemannian Flow Matching to train a Diffusion Transformer (DiT) directly on this spherical latent manifold. Experiments on ImageNet-1K demonstrate that our approach achieves state-of-the-art reconstruction quality, reaching 0.37 rFID and 26.2 dB PSNR, while maintaining strong semantic alignment to the pretrained VFM. Notably, our Riemannian Flow Matching-based DiT exhibits efficient convergence, achieving a gFID of 3.47 at 80 epochs.
PDF112February 3, 2026