De Prisma-hypothese: Het Harmoniseren van Semantische en Pixelrepresentaties via Geünificeerde Auto-encodering
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
December 22, 2025
Auteurs: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
cs.AI
Samenvatting
Diepe representaties tussen modaliteiten zijn inherent met elkaar verweven. In dit artikel analyseren wij systematisch de spectrale kenmerken van diverse semantische en pixelencoders. Opmerkelijk genoeg onthult ons onderzoek een hoogst inspirerende en zelden verkende correspondentie tussen het featurespectrum van een encoder en zijn functionele rol: semantische encoders vangen voornamelijk laagfrequente componenten op die abstracte betekenis coderen, terwijl pixelencoders daarnaast hoogfrequente informatie behouden die fijnmazige details overbrengt. Deze heuristische bevinding biedt een verenigend perspectief dat encoder-gedrag verbindt met zijn onderliggende spectrale structuur. Wij definiëren dit als de Prismahypothese, waarbij elke datamodaliteit kan worden gezien als een projectie van de natuurlijke wereld op een gedeeld featurespectrum, net zoals bij een prisma. Voortbordurend op dit inzicht presenteren wij Unified Autoencoding (UAE), een model dat semantische structuur en pixeldetails harmoniseert via een innovatieve frequentiebandmodulator, waardoor hun naadloze co-existentie mogelijk wordt. Uitgebreide experimenten op ImageNet- en MS-COCO-benchmarks bevestigen dat onze UAE semantische abstractie en pixel-level nauwkeurigheid effectief verenigt in een enkele latente ruimte met state-of-the-art prestaties.
English
Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.