ChatPaper.aiChatPaper

プリズム仮説:統合オートエンコーディングによる意味的表現とピクセル表現の調和

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

December 22, 2025
著者: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
cs.AI

要旨

異なるモダリティにわたる深層表現は、本質的に密接に結びついている。本論文では、様々なセマンティックエンコーダとピクセルエンコーダのスペクトル特性を体系的に分析する。興味深いことに、我々の研究はエンコーダの特徴スペクトルとその機能的役割との間に、非常に示唆に富みながらこれまでほとんど探索されていなかった対応関係を明らかにした:セマンティックエンコーダは主に抽象的な意味を符号化する低周波数成分を捕捉するのに対し、ピクセルエンコーダはさらに細粒度の詳細を伝達する高周波数情報を保持する。この発見的な知見は、エンコーダの挙動をその根底にあるスペクトル構造に結びつける統一的な視点を提供する。我々はこれをプリズム仮説と定義する。この仮説では、各データモダリティは、自然世界が共有の特徴スペクトル上へ投影されたものと見なすことができる。これはプリズムによる光の分光と同様である。この知見に基づき、我々はUnified Autoencoding(UAE)を提案する。UAEは革新的な周波数帯域変調器を介してセマンティック構造とピクセル詳細を調和させ、それらのシームレスな共存を可能にする。ImageNetおよびMS-COCOベンチマークにおける大規模な実験により、我々のUAEがセマンティック抽象化とピクセルレベルの忠実性を、最先端の性能で単一の潜在空間に効果的に統合することが実証された。
English
Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.
PDF533December 24, 2025