ChatPaper.aiChatPaper

Гипотеза призмы: согласование семантических и пиксельных представлений с помощью унифицированного автоэнкодинга

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

December 22, 2025
Авторы: Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
cs.AI

Аннотация

Глубокие представления в различных модальностях по своей природе взаимосвязаны. В данной работе мы систематически анализируем спектральные характеристики различных семантических и пиксельных энкодеров. Примечательно, что наше исследование выявляет высокоинтересную и редко изучаемую корреляцию между спектром признаков энкодера и его функциональной ролью: семантические энкодеры преимущественно захватывают низкочастотные компоненты, кодирующие абстрактное значение, тогда как пиксельные энкодеры дополнительно сохраняют высокочастотную информацию, передающую детализированные нюансы. Это эвристическое открытие предлагает унифицирующую перспективу, связывающую поведение энкодера с его лежащей в основе спектральной структурой. Мы определяем это как Призменную Гипотезу, где каждая модальность данных может рассматриваться как проекция реального мира на общий спектр признаков, подобно призме. Основываясь на этом инсайте, мы предлагаем Unified Autoencoding (UAE) — модель, которая гармонизирует семантическую структуру и пиксельные детали посредством инновационного модулятора частотных полос, обеспечивая их бесшовное сосуществование. Многочисленные эксперименты на бенчмарках ImageNet и MS-COCO подтверждают, что наш UAE эффективно объединяет семантическую абстракцию и пиксельную точность в едином латентном пространстве с передовой производительностью.
English
Deep representations across modalities are inherently intertwined. In this paper, we systematically analyze the spectral characteristics of various semantic and pixel encoders. Interestingly, our study uncovers a highly inspiring and rarely explored correspondence between an encoder's feature spectrum and its functional role: semantic encoders primarily capture low-frequency components that encode abstract meaning, whereas pixel encoders additionally retain high-frequency information that conveys fine-grained detail. This heuristic finding offers a unifying perspective that ties encoder behavior to its underlying spectral structure. We define it as the Prism Hypothesis, where each data modality can be viewed as a projection of the natural world onto a shared feature spectrum, just like the prism. Building on this insight, we propose Unified Autoencoding (UAE), a model that harmonizes semantic structure and pixel details via an innovative frequency-band modulator, enabling their seamless coexistence. Extensive experiments on ImageNet and MS-COCO benchmarks validate that our UAE effectively unifies semantic abstraction and pixel-level fidelity into a single latent space with state-of-the-art performance.
PDF533December 24, 2025