ChatPaper.aiChatPaper

DINO-SAE: Сферический автоэнкодер DINO для высокоточной реконструкции и генерации изображений

DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

January 30, 2026
Авторы: Hun Chang, Byunghee Cha, Jong Chul Ye
cs.AI

Аннотация

В последних исследованиях изучалось использование предобученных визуальных базовых моделей (VFM), таких как DINO, для генеративных автокодировщиков, демонстрируя высокую генеративную производительность. К сожалению, существующие подходы часто страдают от ограниченной точности реконструкции из-за потери высокочастотных деталей. В данной работе мы представляем Сферический Автокодировщик DINO (DINO-SAE) — фреймворк, который объединяет семантическое представление и реконструкцию на уровне пикселей. Наше ключевое наблюдение заключается в том, что семантическая информация в контрастных представлениях в основном кодируется в направлении векторов признаков, тогда как принудительное строгое соответствие амплитуд может препятствовать способности энкодера сохранять мелкозернистые детали. Для решения этой проблемы мы вводим модуль Иерархического Сверточного Встраивания Патчей, который улучшает сохранение локальной структуры и текстуры, и цель Выравнивания по Косинусному Сходству, которая обеспечивает семантическую согласованность, позволяя при этом гибко варьировать амплитуды признаков для сохранения деталей. Кроме того, используя наблюдение, что представления базовых моделей, основанных на self-supervised learning, по своей природе лежат на гиперсфере, мы применяем Риманово Согласование Потоков для обучения Трансформера Диффузии (DiT) непосредственно на этом сферическом латентном многообразии. Эксперименты на ImageNet-1K показывают, что наш подход достигает наилучшего качества реконструкции — 0.37 rFID и 26.2 дБ PSNR, — сохраняя при этом сильную семантическую согласованность с предобученной VFM. Примечательно, что наш DiT на основе Риманова Согласования Потоков демонстрирует эффективную сходимость, достигая gFID 3.47 на 80 эпохах.
English
Recent studies have explored using pretrained Vision Foundation Models (VFMs) such as DINO for generative autoencoders, showing strong generative performance. Unfortunately, existing approaches often suffer from limited reconstruction fidelity due to the loss of high-frequency details. In this work, we present the DINO Spherical Autoencoder (DINO-SAE), a framework that bridges semantic representation and pixel-level reconstruction. Our key insight is that semantic information in contrastive representations is primarily encoded in the direction of feature vectors, while forcing strict magnitude matching can hinder the encoder from preserving fine-grained details. To address this, we introduce Hierarchical Convolutional Patch Embedding module that enhances local structure and texture preservation, and Cosine Similarity Alignment objective that enforces semantic consistency while allowing flexible feature magnitudes for detail retention. Furthermore, leveraging the observation that SSL-based foundation model representations intrinsically lie on a hypersphere, we employ Riemannian Flow Matching to train a Diffusion Transformer (DiT) directly on this spherical latent manifold. Experiments on ImageNet-1K demonstrate that our approach achieves state-of-the-art reconstruction quality, reaching 0.37 rFID and 26.2 dB PSNR, while maintaining strong semantic alignment to the pretrained VFM. Notably, our Riemannian Flow Matching-based DiT exhibits efficient convergence, achieving a gFID of 3.47 at 80 epochs.
PDF112February 3, 2026