Más allá de la última capa: Fusión de representaciones multicapa para la tokenización visual
Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization
May 12, 2026
Autores: Xuanyu Zhu, Yan Bai, Yang Shi, Yihang Lou, Yuanxing Zhang, Jing Jin, Yuan Zhou
cs.AI
Resumen
Los autoencoders de representación que reutilizan codificadores visuales preentrenados congelados como tokenizadores visuales han logrado una sólida calidad de reconstrucción y generación. Sin embargo, los métodos existentes extraen características únicamente de la última capa del codificador, descartando la rica información jerárquica distribuida en las capas intermedias. Demostramos que los detalles visuales de bajo nivel sobreviven en la última capa meramente como residuos atenuados tras múltiples capas de abstracción semántica, y que fusionar explícitamente características de múltiples capas puede recuperar sustancialmente esta información perdida. Proponemos DRoRAE (Autoencoder de Representación con Enrutamiento de Profundidad), un módulo de fusión ligero que agrega adaptativamente todas las capas del codificador mediante enrutamiento con restricción de energía y corrección incremental, produciendo un latente enriquecido compatible con un decodificador preentrenado congelado. Una estrategia de entrenamiento desacoplado en tres fases primero aprende la fusión bajo la restricción distribucional implícita del decodificador congelado, luego ajusta finamente el decodificador para explotar completamente la representación enriquecida. En ImageNet-256, DRoRAE reduce el rFID de 0.57 a 0.29 y mejora el FID de generación de 1.74 a 1.65 (con AutoGuidance), con ganancias que también se transfieren a la síntesis de texto a imagen. Además, descubrimos una ley de escalado log-lineal (R²=0.86) entre la capacidad de fusión y la calidad de reconstrucción, identificando la riqueza de representación como una nueva dimensión escalable predeciblemente para los tokenizadores visuales, análoga al tamaño del vocabulario en PLN.
English
Representation autoencoders that reuse frozen pretrained vision encoders as visual tokenizers have achieved strong reconstruction and generation quality. However, existing methods universally extract features from only the last encoder layer, discarding the rich hierarchical information distributed across intermediate layers. We show that low-level visual details survive in the last layer merely as attenuated residuals after multiple layers of semantic abstraction, and that explicitly fusing multi-layer features can substantially recover this lost information. We propose DRoRAE (Depth-Routed Representation AutoEncoder), a lightweight fusion module that adaptively aggregates all encoder layers via energy-constrained routing and incremental correction, producing an enriched latent compatible with a frozen pretrained decoder. A three-phase decoupled training strategy first learns the fusion under the implicit distributional constraint of the frozen decoder, then fine-tunes the decoder to fully exploit the enriched representation. On ImageNet-256, DRoRAE reduces rFID from 0.57 to 0.29 and improves generation FID from 1.74 to 1.65 (with AutoGuidance), with gains also transferring to text-to-image synthesis. Furthermore, we uncover a log-linear scaling law (R^2{=}0.86) between fusion capacity and reconstruction quality, identifying representation richness as a new, predictably scalable dimension for visual tokenizers analogous to vocabulary size in NLP.