TC-AE: Het Ontsluiten van Tokencapaciteit voor Diepe Compressie Auto-encoders

Samenvatting

Wij stellen TC-AE voor, een op ViT gebaseerde architectuur voor deep compression auto-encoders. Bestaande methoden vergroten doorgaans het aantal kanalen in de latente representaties om de reconstructiekwaliteit bij hoge compressieverhoudingen te behouden. Deze strategie leidt echter vaak tot ineenstorting van de latente representatie, wat de generatieve prestaties verslechtert. In plaats van te vertrouwen op steeds complexere architecturen of meerfasige trainingsschema's, pakt TC-AE deze uitdaging aan vanuit het perspectief van de tokenruimte – de cruciale brug tussen pixels en beeldlatents – door middel van twee complementaire innovaties: Ten eerste bestuderen we de schaling van het aantal tokens door de patchgrootte in ViT aan te passen binnen een vast latent budget, en identificeren we agressieve token-naar-latent compressie als de belangrijkste factor die effectieve schaling beperkt. Om dit probleem aan te pakken, splitsen we token-naar-latent compressie op in twee fasen, waardoor structureel informatieverlies wordt verminderd en effectieve tokenaalschaling voor generatie mogelijk wordt. Ten tweede, om de ineenstorting van de latente representatie verder te beperken, verbeteren we de semantische structuur van beeldtokens via gezamenlijke zelf-gesuperviseerde training, wat leidt tot latenten die beter geschikt zijn voor generatie. Met deze ontwerpen behaalt TC-AE aanzienlijk verbeterde reconstructie- en generatieve prestaties onder diepe compressie. Wij hopen dat ons onderzoek de op ViT gebaseerde tokenizer voor visuele generatie zal bevorderen.

English

We propose TC-AE, a ViT-based architecture for deep compression autoencoders. Existing methods commonly increase the channel number of latent representations to maintain reconstruction quality under high compression ratios. However, this strategy often leads to latent representation collapse, which degrades generative performance. Instead of relying on increasingly complex architectures or multi-stage training schemes, TC-AE addresses this challenge from the perspective of the token space, the key bridge between pixels and image latents, through two complementary innovations: Firstly, we study token number scaling by adjusting the patch size in ViT under a fixed latent budget, and identify aggressive token-to-latent compression as the key factor that limits effective scaling. To address this issue, we decompose token-to-latent compression into two stages, reducing structural information loss and enabling effective token number scaling for generation. Secondly, to further mitigate latent representation collapse, we enhance the semantic structure of image tokens via joint self-supervised training, leading to more generative-friendly latents. With these designs, TC-AE achieves substantially improved reconstruction and generative performance under deep compression. We hope our research will advance ViT-based tokenizer for visual generation.

TC-AE: Het Ontsluiten van Tokencapaciteit voor Diepe Compressie Auto-encoders

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

Samenvatting

Support