DINO-SAE: Autoencoder Esférico DINO para la Reconstrucción y Generación de Imágenes de Alta Fidelidad
DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation
January 30, 2026
Autores: Hun Chang, Byunghee Cha, Jong Chul Ye
cs.AI
Resumen
Estudios recientes han explorado el uso de Modelos de Fundación de Visión (VFMs) preentrenados, como DINO, para autoencoders generativos, mostrando un rendimiento generativo sólido. Lamentablemente, los enfoques existentes a menudo adolecen de una fidelidad de reconstrucción limitada debido a la pérdida de detalles de alta frecuencia. En este trabajo, presentamos el Autoencoder Esférico DINO (DINO-SAE), un marco que conecta la representación semántica y la reconstrucción a nivel de píxeles. Nuestra idea clave es que la información semántica en las representaciones contrastivas se codifica principalmente en la dirección de los vectores de características, mientras que forzar una coincidencia estricta de magnitud puede impedir que el encoder preserve detalles finos. Para abordar esto, introducimos un módulo de Incrustación de Parches Convolucionales Jerárquicos que mejora la preservación de la estructura y textura local, y un objetivo de Alineación por Similitud Coseno que impone consistencia semántica mientras permite magnitudes de características flexibles para la retención de detalles. Además, aprovechando la observación de que las representaciones de los modelos de fundación basados en Aprendizaje Autosupervisado (SSL) se encuentran intrínsecamente en una hiperesfera, empleamos Riemannian Flow Matching para entrenar un Transformer de Difusión (DiT) directamente en este manifold latente esférico. Los experimentos en ImageNet-1K demuestran que nuestro enfoque logra una calidad de reconstrucción state-of-the-art, alcanzando 0.37 rFID y 26.2 dB PSNR, manteniendo al mismo tiempo una fuerte alineación semántica con el VFM preentrenado. Cabe destacar que nuestro DiT basado en Riemannian Flow Matching exhibe una convergencia eficiente, logrando un gFID de 3.47 a las 80 épocas.
English
Recent studies have explored using pretrained Vision Foundation Models (VFMs) such as DINO for generative autoencoders, showing strong generative performance. Unfortunately, existing approaches often suffer from limited reconstruction fidelity due to the loss of high-frequency details. In this work, we present the DINO Spherical Autoencoder (DINO-SAE), a framework that bridges semantic representation and pixel-level reconstruction. Our key insight is that semantic information in contrastive representations is primarily encoded in the direction of feature vectors, while forcing strict magnitude matching can hinder the encoder from preserving fine-grained details. To address this, we introduce Hierarchical Convolutional Patch Embedding module that enhances local structure and texture preservation, and Cosine Similarity Alignment objective that enforces semantic consistency while allowing flexible feature magnitudes for detail retention. Furthermore, leveraging the observation that SSL-based foundation model representations intrinsically lie on a hypersphere, we employ Riemannian Flow Matching to train a Diffusion Transformer (DiT) directly on this spherical latent manifold. Experiments on ImageNet-1K demonstrate that our approach achieves state-of-the-art reconstruction quality, reaching 0.37 rFID and 26.2 dB PSNR, while maintaining strong semantic alignment to the pretrained VFM. Notably, our Riemannian Flow Matching-based DiT exhibits efficient convergence, achieving a gFID of 3.47 at 80 epochs.