Die Prismen-Hypothese: Harmonisierung semantischer und Pixel-Repräsentationen durch vereinheitlichtes Autoencoding
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
December 22, 2025
papers.authors: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
cs.AI
papers.abstract
Tiefe Repräsentationen über Modalitäten hinweg sind inhärent miteinander verwoben. In dieser Arbeit analysieren wir systematisch die spektralen Eigenschaften verschiedener semantischer und Pixel-Encoder. Interessanterweise deckt unsere Studie eine höchst aufschlussreiche und selten untersuchte Korrespondenz zwischen dem Frequenzspektrum eines Encoders und seiner funktionalen Rolle auf: Semantische Encoder erfassen primär niederfrequente Komponenten, die abstrakte Bedeutung kodieren, wohingegen Pixel-Encoder zusätzlich hochfrequente Informationen bewahren, die fein granulare Details übermitteln. Diese heuristische Erkenntnis bietet eine vereinheitlichende Perspektive, die das Encoder-Verhalten an seine zugrundeliegende Spektralstruktur bindet. Wir definieren dies als die Prismen-Hypothese, bei der jede Datenmodalität als eine Projektion der natürlichen Welt auf ein gemeinsames Merkmalspektrum betrachtet werden kann, ähnlich wie bei einem Prisma. Aufbauend auf dieser Einsicht schlagen wir Unified Autoencoding (UAE) vor, ein Modell, das semantische Struktur und Pixeldetails über einen innovativen Frequenzband-Modulator harmonisiert und ihre nahtlose Koexistenz ermöglicht. Umfangreiche Experimente auf den ImageNet- und MS-COCO-Benchmarks validieren, dass unser UAE semantische Abstraktion und Pixelgenauigkeit effektiv in einem einzigen latenten Raum mit State-of-the-Art-Leistung vereint.
English
Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.