TC-AE: 딥 압축 오토인코더의 토큰 용량 한계 해결
TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders
April 8, 2026
저자: Teng Li, Ziyuan Huang, Cong Chen, Yangfu Li, Yuanhuiyi Lyu, Dandan Zheng, Chunhua Shen, Jun Zhang
cs.AI
초록
본 논문에서는 심층 압축 오토인코더를 위한 ViT 기반 구조인 TC-AE를 제안한다. 기존 방법들은 높은 압축률에서도 재구성 품질을 유지하기 위해 잠재 표현의 채널 수를 증가시키는 방식을 일반적으로 사용해 왔다. 그러나 이러한 전략은 잠재 표현 붕괴를 초래하여 생성 성능을 저하시키는 경우가 많다. TC-AE는 점점 복잡해지는 구조나 다단계 학습 방식을 의존하기보다는, 픽셀과 이미지 잠재 표현 사이의 핵심 다리 역할을 하는 토큰 공간의 관점에서 이 문제를 해결하며, 이를 위해 두 가지 상호 보완적인 혁신을 도입한다. 첫째, 고정된 잠재 표현 예산 하에서 ViT의 패치 크기를 조정하여 토큰 수 스케일링을 연구하고, 효과적인 스케일링을 제한하는 핵심 요인으로 과감한 토큰-잠재 표현 압축을 규명한다. 이 문제를 해결하기 위해 토큰-잠재 표현 압축을 두 단계로 분해하여 구조적 정보 손실을 줄이고 생성 작업을 위한 효과적인 토큰 수 스케일링을 가능하게 한다. 둘째, 잠재 표현 붕괴를 추가적으로 완화하기 위해 공동 자기 지도 학습을 통해 이미지 토큰의 의미론적 구조를 강화하여 생성에 더욱 적합한 잠재 표현을 얻는다. 이러한 설계를 통해 TC-AE는 심층 압축 조건에서 재구성 및 생성 성능을 크게 향상시킨다. 본 연구가 시각 생성 분야를 위한 ViT 기반 토크나이저의 발전에 기여하기를 바란다.
English
We propose TC-AE, a ViT-based architecture for deep compression autoencoders. Existing methods commonly increase the channel number of latent representations to maintain reconstruction quality under high compression ratios. However, this strategy often leads to latent representation collapse, which degrades generative performance. Instead of relying on increasingly complex architectures or multi-stage training schemes, TC-AE addresses this challenge from the perspective of the token space, the key bridge between pixels and image latents, through two complementary innovations: Firstly, we study token number scaling by adjusting the patch size in ViT under a fixed latent budget, and identify aggressive token-to-latent compression as the key factor that limits effective scaling. To address this issue, we decompose token-to-latent compression into two stages, reducing structural information loss and enabling effective token number scaling for generation. Secondly, to further mitigate latent representation collapse, we enhance the semantic structure of image tokens via joint self-supervised training, leading to more generative-friendly latents. With these designs, TC-AE achieves substantially improved reconstruction and generative performance under deep compression. We hope our research will advance ViT-based tokenizer for visual generation.