DINO-SAE: Autoencoder Esférico DINO para Reconstrução e Geração de Imagens de Alta Fidelidade

Resumo

Estudos recentes exploraram o uso de Modelos de Base Visuais (VFMs) pré-treinados, como o DINO, em autoencoders generativos, demonstrando um forte desempenho generativo. Infelizmente, as abordagens existentes frequentemente sofrem com fidelidade de reconstrução limitada devido à perda de detalhes de alta frequência. Neste trabalho, apresentamos o Autoencoder Esférico DINO (DINO-SAE), uma estrutura que conecta a representação semântica e a reconstrução em nível de pixel. Nossa principal percepção é que a informação semântica nas representações contrastivas é codificada principalmente na direção dos vetores de características, enquanto forçar uma correspondência estrita de magnitude pode impedir o codificador de preservar detalhes refinados. Para resolver isso, introduzimos o módulo Hierarchical Convolutional Patch Embedding, que aprimora a preservação de estruturas locais e texturas, e o objetivo Cosine Similarity Alignment, que impõe consistência semântica enquanto permite magnitudes de características flexíveis para a retenção de detalhes. Adicionalmente, aproveitando a observação de que as representações dos modelos de base baseados em Aprendizado Auto-Supervisionado (SSL) residem intrinsecamente em uma hiperesfera, empregamos o Riemannian Flow Matching para treinar um Transformer de Difusão (DiT) diretamente nesta variedade latente esférica. Experimentos no ImageNet-1K demonstram que nossa abordagem alcança qualidade de reconstrução state-of-the-art, atingindo 0.37 rFID e 26.2 dB PSNR, enquanto mantém uma forte alinhamento semântico com o VFM pré-treinado. Notavelmente, nosso DiT baseado em Riemannian Flow Matching exibe convergência eficiente, alcançando um gFID de 3.47 em 80 épocas.

English

Recent studies have explored using pretrained Vision Foundation Models (VFMs) such as DINO for generative autoencoders, showing strong generative performance. Unfortunately, existing approaches often suffer from limited reconstruction fidelity due to the loss of high-frequency details. In this work, we present the DINO Spherical Autoencoder (DINO-SAE), a framework that bridges semantic representation and pixel-level reconstruction. Our key insight is that semantic information in contrastive representations is primarily encoded in the direction of feature vectors, while forcing strict magnitude matching can hinder the encoder from preserving fine-grained details. To address this, we introduce Hierarchical Convolutional Patch Embedding module that enhances local structure and texture preservation, and Cosine Similarity Alignment objective that enforces semantic consistency while allowing flexible feature magnitudes for detail retention. Furthermore, leveraging the observation that SSL-based foundation model representations intrinsically lie on a hypersphere, we employ Riemannian Flow Matching to train a Diffusion Transformer (DiT) directly on this spherical latent manifold. Experiments on ImageNet-1K demonstrate that our approach achieves state-of-the-art reconstruction quality, reaching 0.37 rFID and 26.2 dB PSNR, while maintaining strong semantic alignment to the pretrained VFM. Notably, our Riemannian Flow Matching-based DiT exhibits efficient convergence, achieving a gFID of 3.47 at 80 epochs.

DINO-SAE: Autoencoder Esférico DINO para Reconstrução e Geração de Imagens de Alta Fidelidade

DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

Resumo

Support