ChatPaper.aiChatPaper

LatentUMM: 統一マルチモーダルモデルのための二重潜在アライメント

LatentUMM: Dual Latent Alignment for Unified Multimodal Models

May 18, 2026
著者: Yinyi Luo, Wenwen Wang, Hayes Bai, Marios Savvides, Jindong Wang
cs.AI

要旨

統一マルチモーダルモデル (UMMs) は、共有潜在空間を学習することで理解と生成の両方において優れた性能を達成する一方、これら二つの能力間でしばしば機能的不整合が生じる。我々は、この問題が共有表現の欠如に起因するのではなく、潜在空間への写像と潜在空間からの写像を結ぶ変換の間に明示的な整合性が欠けていることに起因することを観測する。その結果、生成と再符号化が一貫性のない軌跡をたどり、モダリティ遷移時にセマンティックドリフトが生じる。本研究では、これらの変換を明示的に整合させ、クロスモーダルな一貫性を向上させる拡張共有潜在空間を構築するフレームワーク LatentUMM を提案する。LatentUMM は二つの段階からなる。第一に、二重潜在整合はモダリティレベルと容量レベルの両方で一貫性を強制する。クロスモーダル整合はより強力な埋め込みモデルを用いて構造化されたクロスモーダル意味を課し、二重容量整合は生成と再符号化の下での双方向の一貫性を強制する。第二に、潜在動的安定化は確率的潜在ロールアウトと優先最適化によりロバスト性を向上させ、セマンティック一貫性をより良く保持する軌跡を優先する。実験により、LatentUMM が多様なアーキテクチャにわたってマルチモーダル一貫性を一貫して向上させることを示す。コードは以下から入手可能: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM
English
Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.