DINO-SAE: DINO-sphärischer Autoencoder für hochauflösende Bildrekonstruktion und -generierung
DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation
January 30, 2026
papers.authors: Hun Chang, Byunghee Cha, Jong Chul Ye
cs.AI
papers.abstract
Aktuelle Studien haben den Einsatz vortrainierter Vision-Foundation-Modelle (VFMs) wie DINO für generative Autoencoder untersucht und dabei eine starke generative Leistung aufgezeigt. Leider leiden bestehende Ansätze oft unter einer begrenzten Rekonstruktionstreue aufgrund des Verlusts hochfrequenter Details. In dieser Arbeit stellen wir den DINO-Spherical-Autoencoder (DINO-SAE) vor, ein Framework, das semantische Repräsentationen und pixelgenaue Rekonstruktion verbindet. Unsere zentrale Erkenntnis ist, dass semantische Informationen in kontrastiven Repräsentationen hauptsächlich in der Richtung der Merkmalsvektoren kodiert sind, während das Erzwingen strikter Betragsübereinstimmung den Encoder daran hindern kann, feinkörnige Details zu erhalten. Um dies zu adressieren, führen wir ein hierarchisches convolutionelles Patch-Embedding-Modul ein, das die Erhaltung lokaler Strukturen und Texturen verbessert, sowie ein Kosinus-Ähnlichkeits-Alignment-Ziel, das semantische Konsistenz erzwingt, während es flexible Merkmalsbeträge zur Detailerhaltung ermöglicht. Darüber hinaus nutzen wir die Beobachtung, dass Repräsentationen SSL-basierter Foundation-Modelle intrinsisch auf einer Hypersphäre liegen, und setzen Riemannian Flow Matching ein, um einen Diffusion Transformer (DiT) direkt auf dieser sphärischen latenten Mannigfaltigkeit zu trainieren. Experimente auf ImageNet-1K zeigen, dass unser Ansatz state-of-the-art Rekonstruktionsqualität erreicht, mit 0,37 rFID und 26,2 dB PSNR, bei gleichzeitig starker semantischer Ausrichtung an das vortrainierte VFM. Besonders bemerkenswert ist, dass unser auf Riemannian Flow Matching basierender DiT eine effiziente Konvergenz aufweist und einen gFID von 3,47 nach 80 Epochen erreicht.
English
Recent studies have explored using pretrained Vision Foundation Models (VFMs) such as DINO for generative autoencoders, showing strong generative performance. Unfortunately, existing approaches often suffer from limited reconstruction fidelity due to the loss of high-frequency details. In this work, we present the DINO Spherical Autoencoder (DINO-SAE), a framework that bridges semantic representation and pixel-level reconstruction. Our key insight is that semantic information in contrastive representations is primarily encoded in the direction of feature vectors, while forcing strict magnitude matching can hinder the encoder from preserving fine-grained details. To address this, we introduce Hierarchical Convolutional Patch Embedding module that enhances local structure and texture preservation, and Cosine Similarity Alignment objective that enforces semantic consistency while allowing flexible feature magnitudes for detail retention. Furthermore, leveraging the observation that SSL-based foundation model representations intrinsically lie on a hypersphere, we employ Riemannian Flow Matching to train a Diffusion Transformer (DiT) directly on this spherical latent manifold. Experiments on ImageNet-1K demonstrate that our approach achieves state-of-the-art reconstruction quality, reaching 0.37 rFID and 26.2 dB PSNR, while maintaining strong semantic alignment to the pretrained VFM. Notably, our Riemannian Flow Matching-based DiT exhibits efficient convergence, achieving a gFID of 3.47 at 80 epochs.