RecTok: 整流化フローに沿った再構成蒸留
RecTok: Reconstruction Distillation along Rectified Flow
December 15, 2025
著者: Qingyu Shi, Size Wu, Jinbin Bai, Kaidong Yu, Yujing Wang, Yunhai Tong, Xiangtai Li, Xuelong Li
cs.AI
要旨
視覚的トークナイザーは拡散モデルにおいて重要な役割を果たす。潜在空間の次元性は、再構成の忠実度と潜在特徴の意味的表現力の両方を支配する。しかし、次元性と生成品質の間には本質的なトレードオフが存在し、既存手法は低次元の潜在空間に制限されている。近年の研究では視覚基盤モデルを活用して視覚トークナイザーの意味論を強化し収束を加速させる試みがなされているが、高次元トークナイザーは依然として低次元版に性能で劣る。本研究では、フロー意味論的蒸留と再構成-整列蒸留という二つの革新により高次元視覚トークナイザーの限界を克服するRecTokを提案する。重要な洞察は、従来研究のように潜在空間に注力するのではなく、フローマッチングにおける順方向フローを意味論的に豊かにし、これを拡散トランスフォーマーの訓練空間として活用する点である。具体的には、当手法は視覚基盤モデルが持つ意味情報をフローマッチングの順方向軌跡に蒸留し、マスク特徴再構成損失の導入によって意味論をさらに強化する。RecTokは優れた画像再構成・生成品質・識別性能を実現し、クラシファイアフリーガイダンスの有無にかかわらずgFID-50Kにおいてstate-of-the-artを達成するとともに、意味論的に豊かな潜在空間構造を維持する。さらに潜在次元が増加しても性能向上が持続することを確認した。コードとモデルはhttps://shi-qingyu.github.io/rectok.github.ioで公開されている。
English
Visual tokenizers play a crucial role in diffusion models. The dimensionality of latent space governs both reconstruction fidelity and the semantic expressiveness of the latent feature. However, a fundamental trade-off is inherent between dimensionality and generation quality, constraining existing methods to low-dimensional latent spaces. Although recent works have leveraged vision foundation models to enrich the semantics of visual tokenizers and accelerate convergence, high-dimensional tokenizers still underperform their low-dimensional counterparts. In this work, we propose RecTok, which overcomes the limitations of high-dimensional visual tokenizers through two key innovations: flow semantic distillation and reconstruction--alignment distillation. Our key insight is to make the forward flow in flow matching semantically rich, which serves as the training space of diffusion transformers, rather than focusing on the latent space as in previous works. Specifically, our method distills the semantic information in VFMs into the forward flow trajectories in flow matching. And we further enhance the semantics by introducing a masked feature reconstruction loss. Our RecTok achieves superior image reconstruction, generation quality, and discriminative performance. It achieves state-of-the-art results on the gFID-50K under both with and without classifier-free guidance settings, while maintaining a semantically rich latent space structure. Furthermore, as the latent dimensionality increases, we observe consistent improvements. Code and model are available at https://shi-qingyu.github.io/rectok.github.io.