TC-AE: Erschließung der Token-Kapazität für tief komprimierende Autoencoder

Zusammenfassung

Wir schlagen TC-AE vor, eine auf dem Vision Transformer (ViT) basierende Architektur für tiefe Kompressions-Autoencoder. Bisherige Methoden erhöhen üblicherweise die Kanalzahl der latenten Repräsentationen, um die Rekonstruktionsqualität bei hohen Kompressionsraten aufrechtzuerhalten. Diese Strategie führt jedoch häufig zu einem Kollaps der latenten Repräsentation, was die generative Leistung beeinträchtigt. Anstatt auf zunehmend komplexe Architekturen oder mehrstufige Trainingsverfahren zu setzen, adressiert TC-AE diese Herausforderung aus der Perspektive des Token-Raums – der zentralen Schnittstelle zwischen Pixeln und bildlichen Latents – durch zwei komplementäre Innovationen: Erstens untersuchen wir die Skalierung der Token-Anzahl durch Anpassung der Patch-Größe im ViT bei einem festen Latent-Budget und identifizieren eine aggressive Token-zu-Latent-Kompression als den Hauptfaktor, der eine effektive Skalierung limitiert. Um dieses Problem zu lösen, zerlegen wir die Token-zu-Latent-Kompression in zwei Stufen, reduzieren so den Verlust struktureller Information und ermöglichen eine effektive Skalierung der Token-Anzahl für die Generierung. Zweitens mildern wir den Kollaps latenter Repräsentationen weiter ab, indem wir die semantische Struktur der Bild-Tokens durch gemeinsames selbstüberwachtes Training verbessern, was zu generatorfreundlicheren Latents führt. Durch diese Konzepte erzielt TC-AE eine deutlich verbesserte Rekonstruktions- und Generativeleistung unter tiefer Kompression. Wir hoffen, dass unsere Forschung die Entwicklung von ViT-basierten Tokenizern für die visuelle Generierung voranbringt.

English

We propose TC-AE, a ViT-based architecture for deep compression autoencoders. Existing methods commonly increase the channel number of latent representations to maintain reconstruction quality under high compression ratios. However, this strategy often leads to latent representation collapse, which degrades generative performance. Instead of relying on increasingly complex architectures or multi-stage training schemes, TC-AE addresses this challenge from the perspective of the token space, the key bridge between pixels and image latents, through two complementary innovations: Firstly, we study token number scaling by adjusting the patch size in ViT under a fixed latent budget, and identify aggressive token-to-latent compression as the key factor that limits effective scaling. To address this issue, we decompose token-to-latent compression into two stages, reducing structural information loss and enabling effective token number scaling for generation. Secondly, to further mitigate latent representation collapse, we enhance the semantic structure of image tokens via joint self-supervised training, leading to more generative-friendly latents. With these designs, TC-AE achieves substantially improved reconstruction and generative performance under deep compression. We hope our research will advance ViT-based tokenizer for visual generation.

TC-AE: Erschließung der Token-Kapazität für tief komprimierende Autoencoder

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

Zusammenfassung

Support