ChatPaper.aiChatPaper

L'Ipotesi del Prisma: Armonizzare le Rappresentazioni Semantiche e Pixel tramite Autoencodifica Unificata

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

December 22, 2025
Autori: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
cs.AI

Abstract

Le rappresentazioni profonde attraverso le modalità sono intrinsecamente interconnesse. In questo articolo, analizziamo sistematicamente le caratteristiche spettrali di vari encoder semantici e pixel. È interessante notare che il nostro studio rivela una corrispondenza altamente ispiratrice e raramente esplorata tra lo spettro delle feature di un encoder e il suo ruolo funzionale: gli encoder semantici catturano principalmente componenti a bassa frequenza che codificano significati astratti, mentre gli encoder pixel trattengono ulteriormente informazioni ad alta frequenza che veicolano dettagli granulari. Questa scoperta euristica offre una prospettiva unificante che lega il comportamento dell'encoder alla sua struttura spettrale sottostante. La definiamo Ipotesi del Prisma, dove ogni modalità di dati può essere vista come una proiezione del mondo naturale su uno spettro di feature condiviso, proprio come un prisma. Basandoci su questa intuizione, proponiamo Unified Autoencoding (UAE), un modello che armonizza la struttura semantica e i dettagli pixel tramite un innovativo modulatore di banda di frequenza, consentendo la loro coesistenza senza soluzione di continuità. Esperimenti estensivi sui benchmark ImageNet e MS-COCO convalidano che il nostro UAE unifica efficacemente l'astrazione semantica e la fedeltà a livello pixel in un singolo spazio latente con prestazioni all'avanguardia.
English
Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.
PDF533December 24, 2025