DINO-SAE: DINO Sferisch Auto-encoder voor Hoogwaardige Beeldreconstructie en -generatie

Samenvatting

Recente studies hebben het gebruik van vooraf getrainde Vision Foundation Models (VFM's), zoals DINO, voor generatieve auto-encoders onderzocht en laten sterke generatieve prestaties zien. Helaas hebben bestaande benaderingen vaak te lijden onder beperkte reconstructienauwkeurigheid door het verlies van hoogfrequente details. In dit werk presenteren we de DINO Sferische Auto-encoder (DINO-SAE), een raamwerk dat semantische representatie en reconstructie op pixelniveau met elkaar verbindt. Onze belangrijkste inzicht is dat semantische informatie in contrastieve representaties voornamelijk is gecodeerd in de richting van de kenmerkvectoren, terwijl het afdwingen van strikte grootte-overeenkomst de encoder kan belemmeren in het behouden van fijne details. Om dit op te lossen, introduceren we een Hiërarchisch Convolutioneel Patch Embedding-module dat het behoud van lokale structuur en textuur verbetert, en een Cosine Similarity Alignment-doelstelling die semantische consistentie afdwingt terwijl het flexibele kenmerkgroottes toestaat voor detailbehoud. Verder, gebruikmakend van de observatie dat op Zelfsupervisie (SSL) gebaseerde foundation model-representaties intrinsiek op een hyper-sfeer liggen, gebruiken we Riemanniaanse Flow Matching om een Diffusion Transformer (DiT) direct op dit sferische latente manifold te trainen. Experimenten op ImageNet-1K tonen aan dat onze aanpak state-of-the-art reconstructiekwaliteit bereikt, met 0.37 rFID en 26.2 dB PSNR, terwijl een sterke semantische afstemming met de vooraf getrainde VFM behouden blijft. Opmerkelijk is dat onze op Riemanniaanse Flow Matching gebaseerde DiT een efficiënte convergentie vertoont, met een gFID van 3.47 na 80 epochs.

English

Recent studies have explored using pretrained Vision Foundation Models (VFMs) such as DINO for generative autoencoders, showing strong generative performance. Unfortunately, existing approaches often suffer from limited reconstruction fidelity due to the loss of high-frequency details. In this work, we present the DINO Spherical Autoencoder (DINO-SAE), a framework that bridges semantic representation and pixel-level reconstruction. Our key insight is that semantic information in contrastive representations is primarily encoded in the direction of feature vectors, while forcing strict magnitude matching can hinder the encoder from preserving fine-grained details. To address this, we introduce Hierarchical Convolutional Patch Embedding module that enhances local structure and texture preservation, and Cosine Similarity Alignment objective that enforces semantic consistency while allowing flexible feature magnitudes for detail retention. Furthermore, leveraging the observation that SSL-based foundation model representations intrinsically lie on a hypersphere, we employ Riemannian Flow Matching to train a Diffusion Transformer (DiT) directly on this spherical latent manifold. Experiments on ImageNet-1K demonstrate that our approach achieves state-of-the-art reconstruction quality, reaching 0.37 rFID and 26.2 dB PSNR, while maintaining strong semantic alignment to the pretrained VFM. Notably, our Riemannian Flow Matching-based DiT exhibits efficient convergence, achieving a gFID of 3.47 at 80 epochs.

DINO-SAE: DINO Sferisch Auto-encoder voor Hoogwaardige Beeldreconstructie en -generatie

DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

Samenvatting

Support