LatentUM: 潜在空間統合モデルによる交差モーダル推論の可能性の解放
LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model
April 2, 2026
著者: Jiachun Jin, Zetong Zhou, Xiao Yang, Hao Zhang, Pengfei Liu, Jun Zhu, Zhijie Deng
cs.AI
要旨
統一モデル(UM)は、異種モダリティにわたるコンテンツの理解と生成能力において期待を集めている。単に視覚コンテンツを生成するだけでなく、UMを相互交差型のクロスモーダル推論に活用することは、より有望かつ価値が高い。例えば、高密度な視覚的思考を要する理解問題の解決、自己反省を通じた視覚生成の改善、段階的行動介入に導かれた物理世界の視覚的ダイナミクスのモデリングなどが挙げられる。しかし、既存のUMは理解と生成のための視覚表現が分離しているため、ピクセルデコーディングを橋渡しとして必要としており、これは非効率かつ非効果的である。本論文では、全てのモダリティを共有された意味的潜在空間内で表現する新たな統一モデル「LatentUM」を提案する。これにより、視覚理解と生成の間におけるピクセル空間仲介の必要性が解消される。この設計は、柔軟な相互交差型クロスモーダル推論と生成を自然に実現する。計算効率の向上に加えて、共有表現はコードックバイアスを大幅に軽減し、クロスモーダル整合性を強化する。これにより、LatentUMはVisual Spatial Planningベンチマークで最先端の性能を達成し、自己反省を通じて視覚生成の限界を押し広げ、共有意味潜在空間内で未来の視覚状態を予測することによる世界モデリングを可能にする。
English
Unified models (UMs) hold promise for their ability to understand and generate content across heterogeneous modalities. Compared to merely generating visual content, the use of UMs for interleaved cross-modal reasoning is more promising and valuable, e.g., for solving understanding problems that require dense visual thinking, improving visual generation through self-reflection, or modeling visual dynamics of the physical world guided by stepwise action interventions. However, existing UMs necessitate pixel decoding as a bridge due to their disjoint visual representations for understanding and generation, which is both ineffective and inefficient. In this paper, we introduce LatentUM, a novel unified model that represents all modalities within a shared semantic latent space, eliminating the need for pixel-space mediation between visual understanding and generation. This design naturally enables flexible interleaved cross-modal reasoning and generation. Beyond improved computational efficiency, the shared representation substantially alleviates codec bias and strengthens cross-modal alignment, allowing LatentUM to achieve state-of-the-art performance on the Visual Spatial Planning benchmark, push the limits of visual generation through self-reflection, and support world modeling by predicting future visual states within the shared semantic latent space.