TC-AE: Sbloccare la Capacità Token per Autoencoder di Compressione Profonda

Abstract

Proponiamo TC-AE, un'architettura basata su Vision Transformer (ViT) per autoencoder di compressione profonda. I metodi esistenti aumentano comunemente il numero di canali delle rappresentazioni latenti per mantenere la qualità della ricostruzione ad alti rapporti di compressione. Tuttavia, questa strategia porta spesso al collasso della rappresentazione latente, che degrada le prestazioni generative. Invece di fare affidamento su architetture sempre più complesse o schemi di addestramento multi-stadio, TC-AE affronta questa sfida dalla prospettiva dello spazio dei token, il ponte chiave tra i pixel e i latenti immagine, attraverso due innovazioni complementari: in primo luogo, studiamo il ridimensionamento del numero di token regolando la dimensione delle patch in ViT con un budget latente fisso, e identifichiamo una compressione aggressiva da token a latente come il fattore chiave che limita un ridimensionamento efficace. Per affrontare questo problema, scomponiamo la compressione token-to-latent in due stadi, riducendo la perdita di informazioni strutturali e consentendo un efficace ridimensionamento del numero di token per la generazione. In secondo luogo, per mitigare ulteriormente il collasso della rappresentazione latente, potenziamo la struttura semantica dei token immagine tramite addestramento auto-supervisionato congiunto, portando a latenti più adatti alla generazione. Con questi progetti, TC-AE raggiunge prestazioni di ricostruzione e generative notevolmente migliorate sotto compressione profonda. Speriamo che la nostra ricerca faccia avanzare i tokenizer basati su ViT per la generazione visiva.

English

We propose TC-AE, a ViT-based architecture for deep compression autoencoders. Existing methods commonly increase the channel number of latent representations to maintain reconstruction quality under high compression ratios. However, this strategy often leads to latent representation collapse, which degrades generative performance. Instead of relying on increasingly complex architectures or multi-stage training schemes, TC-AE addresses this challenge from the perspective of the token space, the key bridge between pixels and image latents, through two complementary innovations: Firstly, we study token number scaling by adjusting the patch size in ViT under a fixed latent budget, and identify aggressive token-to-latent compression as the key factor that limits effective scaling. To address this issue, we decompose token-to-latent compression into two stages, reducing structural information loss and enabling effective token number scaling for generation. Secondly, to further mitigate latent representation collapse, we enhance the semantic structure of image tokens via joint self-supervised training, leading to more generative-friendly latents. With these designs, TC-AE achieves substantially improved reconstruction and generative performance under deep compression. We hope our research will advance ViT-based tokenizer for visual generation.

TC-AE: Sbloccare la Capacità Token per Autoencoder di Compressione Profonda

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

Abstract

Support