TC-AE: Раскрытие потенциала емкости токенов для глубоких компрессионных автоэнкодеров

Аннотация

Мы предлагаем TC-AE — архитектуру на основе Vision Transformer (ViT) для глубоко сжатых автоэнкодеров. Существующие методы обычно увеличивают количество каналов латентных представлений для сохранения качества реконструкции при высоких коэффициентах сжатия. Однако эта стратегия часто приводит к коллапсу латентных представлений, что ухудшает генеративную производительность. Вместо использования всё более сложных архитектур или многоэтапных схем обучения TC-AE решает эту проблему с точки зрения токенного пространства — ключевого моста между пикселями и латентными представлениями изображений — с помощью двух взаимодополняющих инноваций. Во-первых, мы исследуем масштабирование количества токенов путём регулирования размера патчей в ViT при фиксированном бюджете латентных переменных и выявляем агрессивное сжатие «токен-в-латент» как ключевой фактор, ограничивающий эффективное масштабирование. Чтобы решить эту проблему, мы разлагаем сжатие «токен-в-латент» на два этапа, уменьшая потерю структурной информации и обеспечивая эффективное масштабирование количества токенов для генерации. Во-вторых, для дальнейшего смягчения коллапса латентных представлений мы улучшаем семантическую структуру токенов изображения с помощью совместного самообучаемого тренинга, что приводит к созданию более подходящих для генерации латентных переменных. Благодаря этим решениям TC-AE достигает существенного улучшения реконструкции и генеративной производительности при глубоком сжатии. Мы надеемся, что наше исследование продвинет разработку токенайзеров на основе ViT для визуальной генерации.

English

We propose TC-AE, a ViT-based architecture for deep compression autoencoders. Existing methods commonly increase the channel number of latent representations to maintain reconstruction quality under high compression ratios. However, this strategy often leads to latent representation collapse, which degrades generative performance. Instead of relying on increasingly complex architectures or multi-stage training schemes, TC-AE addresses this challenge from the perspective of the token space, the key bridge between pixels and image latents, through two complementary innovations: Firstly, we study token number scaling by adjusting the patch size in ViT under a fixed latent budget, and identify aggressive token-to-latent compression as the key factor that limits effective scaling. To address this issue, we decompose token-to-latent compression into two stages, reducing structural information loss and enabling effective token number scaling for generation. Secondly, to further mitigate latent representation collapse, we enhance the semantic structure of image tokens via joint self-supervised training, leading to more generative-friendly latents. With these designs, TC-AE achieves substantially improved reconstruction and generative performance under deep compression. We hope our research will advance ViT-based tokenizer for visual generation.

TC-AE: Раскрытие потенциала емкости токенов для глубоких компрессионных автоэнкодеров

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

Аннотация

Support