ChatPaper.aiChatPaper

프리즘 가설: 통합 자동 인코딩을 통한 의미 표현과 픽셀 표현의 조화

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

December 22, 2025
저자: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
cs.AI

초록

다양한 양식의 심층 표현은 본질적으로 긴밀하게 연관되어 있습니다. 본 논문에서는 다양한 의미 및 픽셀 인코더의 스펙트럼 특성을 체계적으로 분석합니다. 흥미롭게도, 우리 연구는 인코더의 특징 스펙트럼과 그 기능적 역할 사이에 매우 영감을 주면서도 거의 탐구되지 않은 대응 관계가 있음을 밝혀냅니다: 의미 인코더는 주로 추상적 의미를 인코딩하는 저주파 성분을 포착하는 반면, 픽셀 인코더는 추가로 세밀한 디테일을 전달하는 고주파 정보를 유지합니다. 이 발견은 인코더의 동작을 그 기저에 있는 스펙트럼 구조와 연결하는 통합적 관점을 제시합니다. 우리는 이를 각 데이터 양식이 마치 프리즘처럼 자연 세계를 공유된 특징 스펙트럼 위에 투영한 것으로 볼 수 있다는 '프리즘 가설(Prism Hypothesis)'로 정의합니다. 이러한 통찰을 바탕으로, 우리는 혁신적인 주파수 대역 변조기를 통해 의미 구조와 픽셀 디테일을 조화롭게 통합하고 이들의 원활한 공존을 가능하게 하는 통합 자동 인코딩(Unified Autoencoding, UAE) 모델을 제안합니다. ImageNet 및 MS-COCO 벤치마크에 대한 광범위한 실험을 통해 우리의 UAE가 의미 추상화와 픽셀 수준 정확도를 최첨단 성능으로 단일 잠재 공간에 효과적으로 통합함을 검증합니다.
English
Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.
PDF533December 24, 2025