A Hipótese do Prisma: Harmonizando Representações Semânticas e de Pixels por meio de Autoencodificação Unificada

Resumo

As representações profundas entre modalidades são intrinsecamente interligadas. Neste artigo, analisamos sistematicamente as características espectrais de vários codificadores semânticos e de pixels. Curiosamente, nosso estudo revela uma correspondência altamente inspiradora e pouco explorada entre o espectro de características de um codificador e sua função: codificadores semânticos capturam principalmente componentes de baixa frequência que codificam significado abstrato, enquanto codificadores de pixels retêm adicionalmente informações de alta frequência que transmitem detalhes refinados. Esta descoberta heurística oferece uma perspectiva unificadora que conecta o comportamento do codificador à sua estrutura espectral subjacente. Nós a definimos como a Hipótese do Prisma, onde cada modalidade de dados pode ser vista como uma projeção do mundo natural em um espectro de características compartilhado, assim como o prisma. Com base nesse insight, propomos o Unified Autoencoding (UAE), um modelo que harmoniza estrutura semântica e detalhes de pixels por meio de um modulador de banda de frequência inovador, permitindo sua coexistência harmoniosa. Experimentos extensos nos benchmarks ImageNet e MS-COCO validam que nosso UAE unifica efetivamente a abstração semântica e a fidelidade em nível de pixel em um único espaço latente com desempenho state-of-the-art.

English

Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.