統一マルチモーダルモデルにおける理解は生成を促進するか?分析から進むべき道筋へ
Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
November 25, 2025
著者: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
cs.AI
要旨
近年、統合マルチモーダルモデルにおいて著しい進展が見られるものの、根本的な疑問が残されている:理解は真に生成を向上させるのか?この問題を検証するため、我々はデータ漏洩を防ぎ詳細な分析を可能にする制御された合成データセットと、分離型評価フレームワーク「UniSandbox」を提案する。実験結果から、理解と生成の間に顕著な隔たりが存在することが明らかとなり、これは主に「推論生成」と「知識転移」の二つの次元に現れる。具体的には、推論生成タスクにおいて、理解モジュールでの明示的な連鎖思考(Chain-of-Thought: CoT)が隔たりを効果的に埋めることを確認し、さらに自己訓練アプローチによりこの能力が内在化され、生成時の暗黙的推論を可能にすることを実証した。一方、知識転移タスクでは、CoTが新しく獲得した知識の検索を助けることで生成プロセスを支援すること、さらにクエリベースのアーキテクチャが本来備える潜在的なCoT的性質が転移に影響を与えることを発見した。UniSandboxは、理解と生成の隔たりを真に埋める次世代統合アーキテクチャと訓練戦略の設計に向けた重要な知見を提供する。コードとデータはhttps://github.com/PKU-YuanGroup/UniSandBoxで公開されている。
English
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox