MergeVQ:分離可能なトークン統合と量子化による視覚生成と表現の統一フレームワークMergeVQ: A Unified Framework for Visual Generation and Representation
with Disentangled Token Merging and Quantization
ベクトル量子化(VQ)を用いたマスク画像モデリング(MIM)は、自己教師あり事前学習と画像生成の両方で大きな成功を収めています。しかし、既存の手法の多くは、生成品質と表現学習および効率性の間のトレードオフを共有潜在空間で解決するのに苦労しています。このパラダイムの限界を押し広げるため、我々はMergeVQを提案します。MergeVQは、トークン統合技術をVQベースの生成モデルに組み込むことで、画像生成と視覚表現学習のギャップを統一アーキテクチャで橋渡しします。事前学習中、MergeVQはエンコーダの自己注意ブロック後にトークン統合モジュールを使用してトップkの意味情報を潜在空間から分離し、その後のルックアップフリー量子化(LFQ)とグローバルアラインメントを行います。また、デコーダのクロスアテンションを通じて細部を復元し、再構築を行います。第二段階の生成では、MergeARを導入し、効率的なラスター順予測のためにKVキャッシュ圧縮を実行します。ImageNetでの大規模な実験により、MergeVQがAR生成モデルとして、視覚表現学習と画像生成タスクの両方で競争力のある性能を発揮しつつ、良好なトークン効率と推論速度を維持することが検証されました。コードとモデルはhttps://apexgen-x.github.io/MergeVQで公開予定です。