За пределами последнего слоя: многослойное слияние представлений для визуальной токенизации
Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization
May 12, 2026
Авторы: Xuanyu Zhu, Yan Bai, Yang Shi, Yihang Lou, Yuanxing Zhang, Jing Jin, Yuan Zhou
cs.AI
Аннотация
Автоэнкодеры представлений, использующие замороженные предобученные кодеры изображений в качестве визуальных токенизаторов, продемонстрировали высокое качество реконструкции и генерации. Однако существующие методы повсеместно извлекают признаки только из последнего слоя кодера, отбрасывая богатую иерархическую информацию, распределённую по промежуточным слоям. Мы показываем, что низкоуровневые визуальные детали сохраняются в последнем слое лишь в виде ослабленных остатков после нескольких этапов семантической абстракции, и что явное слияние многослойных признаков может существенно восстановить эту утерянную информацию. Мы предлагаем DRoRAE (Depth-Routed Representation AutoEncoder — автоэнкодер представлений с маршрутизацией по глубине) — легковесный модуль слияния, который адаптивно объединяет все слои кодера с помощью маршрутизации с ограничением по энергии и инкрементальной коррекции, формируя обогащённое скрытое представление, совместимое с замороженным предобученным декодером. Трёхфазная стратегия раздельного обучения сначала осваивает слияние при неявном ограничении на распределение, налагаемом замороженным декодером, а затем дообучает декодер для полного использования обогащённого представления. На ImageNet-256 DRoRAE снижает rFID с 0,57 до 0,29 и улучшает FID генерации с 1,74 до 1,65 (с AutoGuidance), причём выигрыш переносится и на синтез изображений по тексту. Кроме того, мы обнаруживаем логарифмически-линейный закон масштабирования (R²=0,86) между ёмкостью слияния и качеством реконструкции, выявляя богатство представления как новое, предсказуемо масштабируемое измерение для визуальных токенизаторов, аналогичное размеру словаря в NLP.
English
Representation autoencoders that reuse frozen pretrained vision encoders as visual tokenizers have achieved strong reconstruction and generation quality. However, existing methods universally extract features from only the last encoder layer, discarding the rich hierarchical information distributed across intermediate layers. We show that low-level visual details survive in the last layer merely as attenuated residuals after multiple layers of semantic abstraction, and that explicitly fusing multi-layer features can substantially recover this lost information. We propose DRoRAE (Depth-Routed Representation AutoEncoder), a lightweight fusion module that adaptively aggregates all encoder layers via energy-constrained routing and incremental correction, producing an enriched latent compatible with a frozen pretrained decoder. A three-phase decoupled training strategy first learns the fusion under the implicit distributional constraint of the frozen decoder, then fine-tunes the decoder to fully exploit the enriched representation. On ImageNet-256, DRoRAE reduces rFID from 0.57 to 0.29 and improves generation FID from 1.74 to 1.65 (with AutoGuidance), with gains also transferring to text-to-image synthesis. Furthermore, we uncover a log-linear scaling law (R^2{=}0.86) between fusion capacity and reconstruction quality, identifying representation richness as a new, predictably scalable dimension for visual tokenizers analogous to vocabulary size in NLP.