ChatPaper.aiChatPaper

L'Hypothèse du Prisme : Harmoniser les Représentations Sémantiques et Pixelliques par Auto-encodage Unifié

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

December 22, 2025
papers.authors: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
cs.AI

papers.abstract

Les représentations profondes à travers les modalités sont intrinsèquement imbriquées. Dans cet article, nous analysons systématiquement les caractéristiques spectrales de divers encodeurs sémantiques et pixel. Il est intéressant de constater que notre étude révèle une correspondance hautement inspirante et rarement explorée entre le spectre des caractéristiques d'un encodeur et son rôle fonctionnel : les encodeurs sémantiques capturent principalement les composantes basse fréquence qui codent la signification abstraite, tandis que les encodeurs pixel conservent également les informations haute fréquence qui véhiculent les détails fins. Cette découverte heuristique offre une perspective unificatrice qui relie le comportement de l'encodeur à sa structure spectrale sous-jacente. Nous la définissons comme l'Hypothèse du Prisme, où chaque modalité de données peut être vue comme une projection du monde naturel sur un spectre de caractéristiques partagé, à l'image du prisme. Forts de cette intuition, nous proposons l'Auto-encodage Unifié (UAE), un modèle qui harmonise la structure sémantique et les détails pixel via un modulateur de bandes fréquentielles innovant, permettant leur coexistence transparente. Des expériences approfondies sur les benchmarks ImageNet et MS-COCO valident que notre UAE unifie efficacement l'abstraction sémantique et la fidélité au niveau pixel dans un espace latent unique, avec des performances à la pointe de l'état de l'art.
English
Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.
PDF533December 24, 2025