ChatPaper.aiChatPaper

마지막 층 너머: 시각적 토큰화를 위한 다중 층 표현 융합

Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

May 12, 2026
저자: Xuanyu Zhu, Yan Bai, Yang Shi, Yihang Lou, Yuanxing Zhang, Jing Jin, Yuan Zhou
cs.AI

초록

고정된 사전 학습된 비전 인코더를 시각적 토크나이저로 재사용하는 표현 오토인코더는 강력한 재구성 및 생성 품질을 달성했다. 그러나 기존 방법들은 보편적으로 마지막 인코더 계층에서만 특징을 추출하여 중간 계층에 분포된 풍부한 계층적 정보를 버린다. 우리는 저수준 시각적 세부 정보가 여러 계층의 의미론적 추상화 이후 감쇠된 잔차로만 마지막 계층에 남아 있으며, 다중 계층 특징을 명시적으로 융합하면 이 손실된 정보를 상당히 복구할 수 있음을 보여준다. 우리는 DRoRAE(Depth-Routed Representation AutoEncoder)를 제안한다. 이는 에너지 제약 라우팅과 점진적 보정을 통해 모든 인코더 계층을 적응적으로 집계하는 경량 융합 모듈로, 고정된 사전 학습된 디코더와 호환되는 풍부화된 잠재 표현을 생성한다. 3단계 분리 학습 전략은 먼저 고정된 디코더의 암묵적 분포 제약 하에 융합을 학습한 후, 디코더를 미세 조정하여 풍부화된 표현을 완전히 활용한다. ImageNet-256에서 DRoRAE는 rFID를 0.57에서 0.29로 줄이고 생성 FID를 1.74에서 1.65로 개선하며(AutoGuidance 적용), 이러한 이점은 텍스트-이미지 합성으로도 전이된다. 또한, 우리는 융합 용량과 재구성 품질 간의 로그-선형 스케일링 법칙(R²=0.86)을 발견하여, 표현 풍부성을 NLP의 어휘 크기와 유사하게 시각적 토크나이저의 새롭고 예측 가능한 확장 차원으로 식별한다.
English
Representation autoencoders that reuse frozen pretrained vision encoders as visual tokenizers have achieved strong reconstruction and generation quality. However, existing methods universally extract features from only the last encoder layer, discarding the rich hierarchical information distributed across intermediate layers. We show that low-level visual details survive in the last layer merely as attenuated residuals after multiple layers of semantic abstraction, and that explicitly fusing multi-layer features can substantially recover this lost information. We propose DRoRAE (Depth-Routed Representation AutoEncoder), a lightweight fusion module that adaptively aggregates all encoder layers via energy-constrained routing and incremental correction, producing an enriched latent compatible with a frozen pretrained decoder. A three-phase decoupled training strategy first learns the fusion under the implicit distributional constraint of the frozen decoder, then fine-tunes the decoder to fully exploit the enriched representation. On ImageNet-256, DRoRAE reduces rFID from 0.57 to 0.29 and improves generation FID from 1.74 to 1.65 (with AutoGuidance), with gains also transferring to text-to-image synthesis. Furthermore, we uncover a log-linear scaling law (R^2{=}0.86) between fusion capacity and reconstruction quality, identifying representation richness as a new, predictably scalable dimension for visual tokenizers analogous to vocabulary size in NLP.
PDF301May 14, 2026