Jenseits der letzten Schicht: Mehrschichtige Repräsentationsfusion für die visuelle Tokenisierung

Zusammenfassung

Repräsentations-Autoencoder, die eingefrorene, vortrainierte visuelle Encoder als visuelle Tokenisierer wiederverwenden, haben eine hohe Rekonstruktions- und Generierungsqualität erreicht. Bestehende Methoden extrahieren jedoch durchgängig Merkmale nur aus der letzten Encoder-Schicht und vernachlässigen die reichhaltigen hierarchischen Informationen, die über die Zwischenschichten verteilt sind. Wir zeigen, dass niedrigstufige visuelle Details in der letzten Schicht lediglich als abgeschwächte Residuen nach mehreren Schichten semantischer Abstraktion erhalten bleiben, und dass eine explizite Fusion mehrschichtiger Merkmale diese verlorenen Informationen erheblich zurückgewinnen kann. Wir schlagen DRoRAE (Depth-Routed Representation AutoEncoder, tiefengerouteter Repräsentations-Autoencoder) vor, ein leichtes Fusionsmodul, das alle Encoder-Schichten mittels energiebegrenztem Routing und inkrementeller Korrektur adaptiv aggregiert und eine angereicherte latente Repräsentation erzeugt, die mit einem eingefrorenen vortrainierten Decoder kompatibel ist. Eine dreiphasige entkoppelte Trainingsstrategie erlernt zunächst die Fusion unter der impliziten Verteilungsbeschränkung des eingefrorenen Decoders, um dann den Decoder feinabzustimmen, sodass die angereicherte Repräsentation voll ausgeschöpft wird. Auf ImageNet-256 senkt DRoRAE den rFID von 0,57 auf 0,29 und verbessert den Generierungs-FID von 1,74 auf 1,65 (mit AutoGuidance), wobei die Gewinne auch auf die Text-zu-Bild-Synthese übertragbar sind. Darüber hinaus decken wir ein logarithmisch-lineares Skalierungsgesetz (R²=0,86) zwischen Fusionskapazität und Rekonstruktionsqualität auf und identifizieren den Repräsentationsreichtum als eine neue, vorhersagbar skalierbare Dimension für visuelle Tokenisierer, analog zur Vokabulargröße in der NLP.

English

Representation autoencoders that reuse frozen pretrained vision encoders as visual tokenizers have achieved strong reconstruction and generation quality. However, existing methods universally extract features from only the last encoder layer, discarding the rich hierarchical information distributed across intermediate layers. We show that low-level visual details survive in the last layer merely as attenuated residuals after multiple layers of semantic abstraction, and that explicitly fusing multi-layer features can substantially recover this lost information. We propose DRoRAE (Depth-Routed Representation AutoEncoder), a lightweight fusion module that adaptively aggregates all encoder layers via energy-constrained routing and incremental correction, producing an enriched latent compatible with a frozen pretrained decoder. A three-phase decoupled training strategy first learns the fusion under the implicit distributional constraint of the frozen decoder, then fine-tunes the decoder to fully exploit the enriched representation. On ImageNet-256, DRoRAE reduces rFID from 0.57 to 0.29 and improves generation FID from 1.74 to 1.65 (with AutoGuidance), with gains also transferring to text-to-image synthesis. Furthermore, we uncover a log-linear scaling law (R^2{=}0.86) between fusion capacity and reconstruction quality, identifying representation richness as a new, predictably scalable dimension for visual tokenizers analogous to vocabulary size in NLP.

Jenseits der letzten Schicht: Mehrschichtige Repräsentationsfusion für die visuelle Tokenisierung

Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

Zusammenfassung

Support