TC-AE: Desbloqueando la Capacidad de Tokens para Autoencoders de Compresión Profunda

Resumen

Proponemos TC-AE, una arquitectura basada en Vision Transformer (ViT) para autoencoders de compresión profunda. Los métodos existentes comúnmente aumentan el número de canales de las representaciones latentes para mantener la calidad de reconstrucción bajo altas tasas de compresión. Sin embargo, esta estrategia a menudo conduce al colapso de la representación latente, lo que degrada el rendimiento generativo. En lugar de depender de arquitecturas cada vez más complejas o esquemas de entrenamiento multi-etapa, TC-AE aborda este desafío desde la perspectiva del espacio de *tokens*, el puente clave entre los píxeles y los latentes de imagen, mediante dos innovaciones complementarias: En primer lugar, estudiamos el escalado del número de *tokens* ajustando el tamaño del *patch* en ViT bajo un presupuesto latente fijo, e identificamos la compresión agresiva de *token* a latente como el factor clave que limita el escalado efectivo. Para abordar este problema, descomponemos la compresión de *token* a latente en dos etapas, reduciendo la pérdida de información estructural y permitiendo un escalado efectivo del número de *tokens* para la generación. En segundo lugar, para mitigar aún más el colapso de la representación latente, mejoramos la estructura semántica de los *tokens* de imagen mediante entrenamiento auto-supervisado conjunto, lo que conduce a latentes más adecuados para la generación. Con estos diseños, TC-AE logra un rendimiento de reconstrucción y generativo sustancialmente mejorado bajo compresión profunda. Esperamos que nuestra investigación impulse el desarrollo de *tokenizers* basados en ViT para la generación visual.

English

We propose TC-AE, a ViT-based architecture for deep compression autoencoders. Existing methods commonly increase the channel number of latent representations to maintain reconstruction quality under high compression ratios. However, this strategy often leads to latent representation collapse, which degrades generative performance. Instead of relying on increasingly complex architectures or multi-stage training schemes, TC-AE addresses this challenge from the perspective of the token space, the key bridge between pixels and image latents, through two complementary innovations: Firstly, we study token number scaling by adjusting the patch size in ViT under a fixed latent budget, and identify aggressive token-to-latent compression as the key factor that limits effective scaling. To address this issue, we decompose token-to-latent compression into two stages, reducing structural information loss and enabling effective token number scaling for generation. Secondly, to further mitigate latent representation collapse, we enhance the semantic structure of image tokens via joint self-supervised training, leading to more generative-friendly latents. With these designs, TC-AE achieves substantially improved reconstruction and generative performance under deep compression. We hope our research will advance ViT-based tokenizer for visual generation.

TC-AE: Desbloqueando la Capacidad de Tokens para Autoencoders de Compresión Profunda

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

Resumen

Support