ChatPaper.aiChatPaper

RecTok: 정류된 흐름을 따른 재구성 증류

RecTok: Reconstruction Distillation along Rectified Flow

December 15, 2025
저자: Qingyu Shi, Size Wu, Jinbin Bai, Kaidong Yu, Yujing Wang, Yunhai Tong, Xiangtai Li, Xuelong Li
cs.AI

초록

시각적 토크나이저는 확산 모델에서 중요한 역할을 수행합니다. 잠재 공간의 차원은 재구성 정확도와 잠재 특징의 의미론적 표현력을 동시에 결정합니다. 그러나 차원과 생성 품질 사이에는 본질적인 트레이드오프가 존재하여, 기존 방법론들은 낮은 차원의 잠재 공간에 한정됩니다. 최근 연구들이 시각 기반 모델을 활용하여 시각적 토크나이저의 의미론을 풍부하게 하고 수렴 속도를 높이려는 시도를 하고 있지만, 고차원 토크나이저들은 여전히 저차원 대비 성능이 떨어집니다. 본 연구에서는 흐름 의미론 증류와 재구성-정렬 증류라는 두 가지 핵심 혁신을 통해 고차원 시각적 토크나이저의 한계를 극복하는 RecTok을 제안합니다. 우리의 핵심 통찰은 기존 연구처럼 잠재 공간에 집중하기보다, 확산 트랜스포머의 학습 공간 역할을 하는 흐름 정합의 순방향 흐름을 의미론적으로 풍부하게 만드는 데 있습니다. 구체적으로, 우리의 방법은 VFM의 의미론 정보를 흐름 정합의 순방향 흐름 궤적으로 증류합니다. 또한 마스킹된 특징 재구성 손실을 도입하여 의미론을 더욱 강화합니다. 우리의 RecTok은 우수한 이미지 재구성, 생성 품질 및 판별 성능을 달성합니다. 분류자 없음 지도 설정 유무와 관계없이 gFID-50K에서 최첨단 성능을 보이며 의미론적으로 풍부한 잠재 공간 구조를 유지합니다. 나아가 잠재 차원이 증가함에 따라 지속적인 성능 향상을 관찰할 수 있습니다. 코드와 모델은 https://shi-qingyu.github.io/rectok.github.io에서 확인할 수 있습니다.
English
Visual tokenizers play a crucial role in diffusion models. The dimensionality of latent space governs both reconstruction fidelity and the semantic expressiveness of the latent feature. However, a fundamental trade-off is inherent between dimensionality and generation quality, constraining existing methods to low-dimensional latent spaces. Although recent works have leveraged vision foundation models to enrich the semantics of visual tokenizers and accelerate convergence, high-dimensional tokenizers still underperform their low-dimensional counterparts. In this work, we propose RecTok, which overcomes the limitations of high-dimensional visual tokenizers through two key innovations: flow semantic distillation and reconstruction--alignment distillation. Our key insight is to make the forward flow in flow matching semantically rich, which serves as the training space of diffusion transformers, rather than focusing on the latent space as in previous works. Specifically, our method distills the semantic information in VFMs into the forward flow trajectories in flow matching. And we further enhance the semantics by introducing a masked feature reconstruction loss. Our RecTok achieves superior image reconstruction, generation quality, and discriminative performance. It achieves state-of-the-art results on the gFID-50K under both with and without classifier-free guidance settings, while maintaining a semantically rich latent space structure. Furthermore, as the latent dimensionality increases, we observe consistent improvements. Code and model are available at https://shi-qingyu.github.io/rectok.github.io.
PDF32December 17, 2025