TC-AE: Desbloqueando a Capacidade de Tokens para Autoencoders de Compressão Profunda

Resumo

Propomos o TC-AE, uma arquitetura baseada em ViT para autoencoders de compressão profunda. Os métodos existentes geralmente aumentam o número de canais das representações latentes para manter a qualidade de reconstrução sob altas taxas de compressão. No entanto, esta estratégia frequentemente leva ao colapso da representação latente, o que degrada o desempenho generativo. Em vez de depender de arquiteturas progressivamente mais complexas ou esquemas de treinamento multiestágio, o TC-AE aborda este desafio a partir da perspectiva do espaço de *tokens*, a ponte fundamental entre pixels e latentes de imagem, por meio de duas inovações complementares: Em primeiro lugar, estudamos a escalabilidade do número de *tokens* ao ajustar o tamanho do *patch* no ViT sob um orçamento latente fixo, e identificamos a compressão agressiva de *token*-para-latente como o fator-chave que limita a escalabilidade efetiva. Para resolver este problema, decompomos a compressão *token*-para-latente em dois estágios, reduzindo a perda de informação estrutural e permitindo uma escalabilidade efetiva do número de *tokens* para geração. Em segundo lugar, para mitigar ainda mais o colapso da representação latente, aprimoramos a estrutura semântica dos *tokens* de imagem via treinamento auto supervisionado conjunto, resultando em latentes mais favoráveis à geração. Com estes projetos, o TC-AE alcança um desempenho de reconstrução e generativo substancialmente melhorado sob compressão profunda. Esperamos que nossa pesquisa avance o desenvolvimento de *tokenizers* baseados em ViT para geração visual.

English

We propose TC-AE, a ViT-based architecture for deep compression autoencoders. Existing methods commonly increase the channel number of latent representations to maintain reconstruction quality under high compression ratios. However, this strategy often leads to latent representation collapse, which degrades generative performance. Instead of relying on increasingly complex architectures or multi-stage training schemes, TC-AE addresses this challenge from the perspective of the token space, the key bridge between pixels and image latents, through two complementary innovations: Firstly, we study token number scaling by adjusting the patch size in ViT under a fixed latent budget, and identify aggressive token-to-latent compression as the key factor that limits effective scaling. To address this issue, we decompose token-to-latent compression into two stages, reducing structural information loss and enabling effective token number scaling for generation. Secondly, to further mitigate latent representation collapse, we enhance the semantic structure of image tokens via joint self-supervised training, leading to more generative-friendly latents. With these designs, TC-AE achieves substantially improved reconstruction and generative performance under deep compression. We hope our research will advance ViT-based tokenizer for visual generation.

TC-AE: Desbloqueando a Capacidade de Tokens para Autoencoders de Compressão Profunda

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

Resumo

Support