Au-delà de la dernière couche : Fusion de représentations multicouches pour la tokenisation visuelle

Résumé

Les autoencodeurs de représentation qui réutilisent des encodeurs visuels pré-entraînés gelés comme tokeniseurs visuels ont atteint une qualité de reconstruction et de génération élevée. Cependant, les méthodes existantes extraient universellement les caractéristiques uniquement de la dernière couche de l'encodeur, négligeant la riche information hiérarchique répartie sur les couches intermédiaires. Nous montrons que les détails visuels de bas niveau survivent dans la dernière couche simplement en tant que résidus atténués après plusieurs couches d'abstraction sémantique, et que la fusion explicite des caractéristiques multi-couches peut récupérer substantiellement cette information perdue. Nous proposons DRoRAE (Autoencodeur de Représentation à Routage par Profondeur), un module de fusion léger qui agrège de manière adaptative toutes les couches de l'encodeur via un routage contraint par l'énergie et une correction incrémentielle, produisant un latent enrichi compatible avec un décodeur pré-entraîné gelé. Une stratégie d'entraînement découplé en trois phases apprend d'abord la fusion sous la contrainte distributionnelle implicite du décodeur gelé, puis affine le décodeur pour exploiter pleinement la représentation enrichie. Sur ImageNet-256, DRoRAE réduit le rFID de 0,57 à 0,29 et améliore le FID de génération de 1,74 à 1,65 (avec AutoGuidance), ces gains se transférant également à la synthèse texte-image. De plus, nous découvrons une loi d'échelle log-linéaire (R²=0,86) entre la capacité de fusion et la qualité de reconstruction, identifiant la richesse de représentation comme une nouvelle dimension évolutive prévisible pour les tokeniseurs visuels, analogue à la taille du vocabulaire en TALN.

English

Representation autoencoders that reuse frozen pretrained vision encoders as visual tokenizers have achieved strong reconstruction and generation quality. However, existing methods universally extract features from only the last encoder layer, discarding the rich hierarchical information distributed across intermediate layers. We show that low-level visual details survive in the last layer merely as attenuated residuals after multiple layers of semantic abstraction, and that explicitly fusing multi-layer features can substantially recover this lost information. We propose DRoRAE (Depth-Routed Representation AutoEncoder), a lightweight fusion module that adaptively aggregates all encoder layers via energy-constrained routing and incremental correction, producing an enriched latent compatible with a frozen pretrained decoder. A three-phase decoupled training strategy first learns the fusion under the implicit distributional constraint of the frozen decoder, then fine-tunes the decoder to fully exploit the enriched representation. On ImageNet-256, DRoRAE reduces rFID from 0.57 to 0.29 and improves generation FID from 1.74 to 1.65 (with AutoGuidance), with gains also transferring to text-to-image synthesis. Furthermore, we uncover a log-linear scaling law (R^2{=}0.86) between fusion capacity and reconstruction quality, identifying representation richness as a new, predictably scalable dimension for visual tokenizers analogous to vocabulary size in NLP.

Au-delà de la dernière couche : Fusion de représentations multicouches pour la tokenisation visuelle

Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

Résumé

Support