ChatPaper.aiChatPaper

最終層を超えて:視覚的トークン化のための多層表現融合

Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

May 12, 2026
著者: Xuanyu Zhu, Yan Bai, Yang Shi, Yihang Lou, Yuanxing Zhang, Jing Jin, Yuan Zhou
cs.AI

要旨

固定された事前学習済み視覚エンコーダを視覚トークナイザとして再利用する表現オートエンコーダは、強力な再構成品質と生成品質を達成してきた。しかし、既存手法は例外なく最終エンコーダ層のみから特徴を抽出しており、中間層に分布する豊かな階層的情報を無視している。本稿では、低レベルの視覚的詳細が、複数層にわたる意味的抽象化の後、最終層では単に減衰した残差としてしか生存しておらず、多層特徴を明示的に融合することでこの失われた情報を実質的に回復できることを示す。我々はDRoRAE(Depth-Routed Representation AutoEncoder)を提案する。これは軽量な融合モジュールであり、エネルギー制約付きルーティングと増分補正を介して全エンコーダ層を適応的に集約し、固定された事前学習済みデコーダと互換性のある enriched 潜在表現を生成する。3フェーズの分離訓練戦略により、まず固定デコーダの暗黙的な分布制約下で融合を学習し、次にデコーダを微調整して enriched 表現を完全に活用する。ImageNet-256において、DRoRAEはrFIDを0.57から0.29に低減し、生成FIDを(AutoGuidance使用時)1.74から1.65に改善し、その利得はテキスト画像合成にも転移する。さらに、融合容量と再構成品質の間に対数線形スケーリング則(R²=0.86)を発見し、表現の豊かさが、NLPにおける語彙サイズに類する、視覚トークナイザの予測可能にスケーラブルな新しい次元であることを特定する。
English
Representation autoencoders that reuse frozen pretrained vision encoders as visual tokenizers have achieved strong reconstruction and generation quality. However, existing methods universally extract features from only the last encoder layer, discarding the rich hierarchical information distributed across intermediate layers. We show that low-level visual details survive in the last layer merely as attenuated residuals after multiple layers of semantic abstraction, and that explicitly fusing multi-layer features can substantially recover this lost information. We propose DRoRAE (Depth-Routed Representation AutoEncoder), a lightweight fusion module that adaptively aggregates all encoder layers via energy-constrained routing and incremental correction, producing an enriched latent compatible with a frozen pretrained decoder. A three-phase decoupled training strategy first learns the fusion under the implicit distributional constraint of the frozen decoder, then fine-tunes the decoder to fully exploit the enriched representation. On ImageNet-256, DRoRAE reduces rFID from 0.57 to 0.29 and improves generation FID from 1.74 to 1.65 (with AutoGuidance), with gains also transferring to text-to-image synthesis. Furthermore, we uncover a log-linear scaling law (R^2{=}0.86) between fusion capacity and reconstruction quality, identifying representation richness as a new, predictably scalable dimension for visual tokenizers analogous to vocabulary size in NLP.
PDF301May 14, 2026