UniCom: Vereinheitlichte multimodale Modellierung mittels komprimierter kontinuierlicher semantischer Repräsentationen

Zusammenfassung

Aktuelle vereinheitlichte multimodale Modelle nutzen typischerweise diskrete visuelle Tokenizer, um die Modalitätslücke zu überbrücken. Die Diskretisierung verwirft jedoch unweigerlich feinkörnige semantische Informationen, was zu suboptimalen Leistungen bei visuellen Verständnisaufgaben führt. Umgekehrt stellt die direkte Modellierung kontinuierlicher semantischer Repräsentationen (z.B. CLIP, SigLIP) erhebliche Herausforderungen an das generative Modellieren in hochdimensionalen Räumen, was zu langsamer Konvergenz und Trainingsinstabilität führt. Um dieses Dilemma zu lösen, stellen wir UniCom vor – einen vereinheitlichten Rahmen, der multimodales Verständnis und Generierung durch komprimierte kontinuierliche Repräsentationen in Einklang bringt. Wir zeigen empirisch, dass die Reduzierung der Kanaldimension für Rekonstruktion und Generierung signifikant effektiver ist als räumliches Downsampling. Dementsprechend entwerfen wir einen auf Aufmerksamkeit basierenden semantischen Kompressor, um dichte Merkmale in eine kompakte, vereinheitlichte Repräsentation zu destillieren. Des Weiteren validieren wir, dass die Transfusions-Architektur abfragebasierten Designs in Konvergenz und Konsistenz überlegen ist. Experimente belegen, dass UniCom state-of-the-art Generierungsleistung unter vereinheitlichten Modellen erreicht. Bemerkenswerterweise liefert es durch die Bewahrung reicher semantischer Priors außergewöhnliche Steuerbarkeit bei der Bildbearbeitung und bewahrt Bildkonsistenz selbst ohne Rückgriff auf VAE.

English

Current unified multimodal models typically rely on discrete visual tokenizers to bridge the modality gap. However, discretization inevitably discards fine-grained semantic information, leading to suboptimal performance in visual understanding tasks. Conversely, directly modeling continuous semantic representations (e.g., CLIP, SigLIP) poses significant challenges in high-dimensional generative modeling, resulting in slow convergence and training instability. To resolve this dilemma, we introduce UniCom, a unified framework that harmonizes multimodal understanding and generation via compressed continuous representation. We empirically demonstrate that reducing channel dimension is significantly more effective than spatial downsampling for both reconstruction and generation. Accordingly, we design an attention-based semantic compressor to distill dense features into a compact unified representation. Furthermore, we validate that the transfusion architecture surpasses query-based designs in convergence and consistency. Experiments demonstrate that UniCom achieves state-of-the-art generation performance among unified models. Notably, by preserving rich semantic priors, it delivers exceptional controllability in image editing and maintains image consistency even without relying on VAE.

UniCom: Vereinheitlichte multimodale Modellierung mittels komprimierter kontinuierlicher semantischer Repräsentationen

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Zusammenfassung

Support