UniCom:圧縮された連続的意味表現による統合マルチモーダルモデリング
UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations
March 11, 2026
著者: Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo
cs.AI
要旨
現在の統一マルチモーダルモデルは、モダリティ間のギャップを埋めるために離散的な視覚トークナイザーに依存するのが一般的です。しかし、離散化は必然的に細かな意味情報を捨て去ってしまうため、視覚理解タスクにおいて最適とは言えない性能に留まっています。一方、連続的な意味表現(CLIPやSigLIPなど)を直接モデル化することは、高次元の生成モデリングにおいて重大な課題をもたらし、収束が遅く、訓練が不安定になる結果を招きます。
このジレンマを解決するため、我々は圧縮された連続的表現によるマルチモーダル理解と生成を調和させる統一フレームワーク、UniComを提案します。実験により、チャネル次元の削減が、空間的なダウンサンプリングよりも再構成と生成の両方においてはるかに効果的であることを実証しました。これに基づき、我々は密な特徴をコンパクトな統一表現に蒸留するための、注意機構に基づく意味圧縮器を設計しました。さらに、transfusionアーキテクチャが、クエリベースの設計よりも収束性と一貫性において優れていることを検証しました。
実験結果は、UniComが統一モデルの中で最先端の生成性能を達成することを示しています。特に、豊富な意味的プライアを保持することにより、画像編集において卓越した制御性を発揮し、VAEに依存しなくても画像の一貫性を維持することができます。
English
Current unified multimodal models typically rely on discrete visual tokenizers to bridge the modality gap. However, discretization inevitably discards fine-grained semantic information, leading to suboptimal performance in visual understanding tasks. Conversely, directly modeling continuous semantic representations (e.g., CLIP, SigLIP) poses significant challenges in high-dimensional generative modeling, resulting in slow convergence and training instability. To resolve this dilemma, we introduce UniCom, a unified framework that harmonizes multimodal understanding and generation via compressed continuous representation. We empirically demonstrate that reducing channel dimension is significantly more effective than spatial downsampling for both reconstruction and generation. Accordingly, we design an attention-based semantic compressor to distill dense features into a compact unified representation. Furthermore, we validate that the transfusion architecture surpasses query-based designs in convergence and consistency. Experiments demonstrate that UniCom achieves state-of-the-art generation performance among unified models. Notably, by preserving rich semantic priors, it delivers exceptional controllability in image editing and maintains image consistency even without relying on VAE.