TC-AE : Libérer la capacité de token pour les autoencodeurs de compression profonde

Résumé

Nous proposons TC-AE, une architecture basée sur Vision Transformer (ViT) pour les autoencodeurs de compression profonde. Les méthodes existantes augmentent généralement le nombre de canaux des représentations latentes pour préserver la qualité de reconstruction sous des taux de compression élevés. Cependant, cette stratégie conduit souvent à un effondrement de la représentation latente, ce qui dégrade les performances génératives. Plutôt que de recourir à des architectures de plus en plus complexes ou à des schémas d'apprentissage multi-étapes, TC-AE aborde ce défi du point de vue de l'espace des tokens, le pont clé entre les pixels et les latentes d'image, grâce à deux innovations complémentaires : Premièrement, nous étudions la mise à l'échelle du nombre de tokens en ajustant la taille des patchs dans ViT sous un budget latent fixe, et identifions la compression agressive token-vers-latent comme le facteur clé limitant une mise à l'échelle efficace. Pour résoudre ce problème, nous décomposons la compression token-vers-latent en deux étapes, réduisant la perte d'information structurelle et permettant une mise à l'échelle efficace du nombre de tokens pour la génération. Deuxièmement, pour atténuer davantage l'effondrement des représentations latentes, nous renforçons la structure sémantique des tokens d'image via un apprentissage auto-supervisé conjoint, conduisant à des latentes plus propices à la génération. Grâce à ces conceptions, TC-AE obtient une amélioration substantielle des performances de reconstruction et de génération sous compression profonde. Nous espérons que nos recherches feront progresser les tokenizers basés sur ViT pour la génération visuelle.

English

We propose TC-AE, a ViT-based architecture for deep compression autoencoders. Existing methods commonly increase the channel number of latent representations to maintain reconstruction quality under high compression ratios. However, this strategy often leads to latent representation collapse, which degrades generative performance. Instead of relying on increasingly complex architectures or multi-stage training schemes, TC-AE addresses this challenge from the perspective of the token space, the key bridge between pixels and image latents, through two complementary innovations: Firstly, we study token number scaling by adjusting the patch size in ViT under a fixed latent budget, and identify aggressive token-to-latent compression as the key factor that limits effective scaling. To address this issue, we decompose token-to-latent compression into two stages, reducing structural information loss and enabling effective token number scaling for generation. Secondly, to further mitigate latent representation collapse, we enhance the semantic structure of image tokens via joint self-supervised training, leading to more generative-friendly latents. With these designs, TC-AE achieves substantially improved reconstruction and generative performance under deep compression. We hope our research will advance ViT-based tokenizer for visual generation.

TC-AE : Libérer la capacité de token pour les autoencodeurs de compression profonde

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

Résumé

Support