MergeVQ: Ein einheitliches Framework für visuelle Generierung und Repräsentation
mit entflochtenem Token-Merging und QuantisierungMergeVQ: A Unified Framework for Visual Generation and Representation
with Disentangled Token Merging and Quantization
Masked Image Modeling (MIM) mit Vector Quantization (VQ) hat sowohl beim selbstüberwachten Vortraining als auch bei der Bildgenerierung große Erfolge erzielt. Die meisten bestehenden Methoden haben jedoch Schwierigkeiten, den Kompromiss im gemeinsamen latenten Raum zwischen Generierungsqualität, Repräsentationslernen und Effizienz zu bewältigen. Um die Grenzen dieses Paradigmas zu erweitern, schlagen wir MergeVQ vor, das Token-Merging-Techniken in VQ-basierte generative Modelle integriert, um die Lücke zwischen Bildgenerierung und visuellem Repräsentationslernen in einer einheitlichen Architektur zu schließen. Während des Vortrainings entkoppelt MergeVQ Top-k-Semantik vom latenten Raum mithilfe des Token-Merge-Moduls nach Self-Attention-Blöcken im Encoder für die anschließende Look-up Free Quantization (LFQ) und globale Ausrichtung und stellt deren feinkörnige Details durch Cross-Attention im Decoder für die Rekonstruktion wieder her. Für die zweistufige Generation führen wir MergeAR ein, das eine KV-Cache-Komprimierung für effiziente Rasterreihenfolge-Vorhersage durchführt. Umfangreiche Experimente auf ImageNet bestätigen, dass MergeVQ als AR-generatives Modell sowohl beim visuellen Repräsentationslernen als auch bei Bildgenerierungsaufgaben wettbewerbsfähige Leistungen erzielt und dabei eine günstige Token-Effizienz und Inferenzgeschwindigkeit beibehält. Der Code und das Modell werden unter https://apexgen-x.github.io/MergeVQ verfügbar sein.