ChatPaper.aiChatPaper

La Hipótesis del Prisma: Armonización de Representaciones Semánticas y de Píxeles mediante Auto codificación Unificada

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

December 22, 2025
Autores: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
cs.AI

Resumen

Las representaciones profundas entre modalidades están intrínsecamente interconectadas. En este artículo, analizamos sistemáticamente las características espectrales de varios codificadores semánticos y de píxeles. Curiosamente, nuestro estudio revela una correspondencia altamente inspiradora y poco explorada entre el espectro de características de un codificador y su función: los codificadores semánticos capturan principalmente componentes de baja frecuencia que codifican significado abstracto, mientras que los codificadores de píxeles retienen adicionalmente información de alta frecuencia que transmite detalles finos. Este hallazgo heurístico ofrece una perspectiva unificadora que vincula el comportamiento del codificador con su estructura espectral subyacente. Lo definimos como la Hipótesis del Prisma, donde cada modalidad de datos puede verse como una proyección del mundo natural en un espectro de características compartido, al igual que el prisma. Basándonos en esta idea, proponemos Codificación Automática Unificada (UAE, por sus siglas en inglés), un modelo que armoniza la estructura semántica y los detalles de píxeles mediante un innovador modulador de bandas de frecuencia, permitiendo su coexistencia perfecta. Extensos experimentos en los benchmarks de ImageNet y MS-COCO validan que nuestro UAE unifica efectivamente la abstracción semántica y la fidelidad a nivel de píxeles en un único espacio latente con un rendimiento de vanguardia.
English
Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.
PDF533December 24, 2025