擬似統合:エントロピー探査による統合マルチモーダルモデルにおける発散的情報パターンの解明
Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models
April 13, 2026
著者: Songlin Yang, Xianghao Kong, Anyi Rao
cs.AI
要旨
統合マルチモーダルモデル(UMM)は、大規模言語モデル(LLM)の推論能力と視覚モデルの生成能力を統合するように設計されました。しかし実際には、この相乗効果は未だ実現されておらず、UMMは画像合成においてLLMのような推論を転移できず、応答行動に不一致が見られます。我々はこの現象を「疑似統合」と命名します。その内部原因の診断は重要ですが、既存のプロービング手法はモデル内部の洞察を欠くか、プロンプトと応答の依存関係を無視しています。これらの限界に対処するため、我々はUMMが入力をどのように符号化し出力を生成するかを統合的に分析する情報理論的プロービングフレームワークを提案します。10の代表的なUMMに適用した結果、本フレームワークは疑似統合が二重の分岐に起因することを明らかにしました:(i)視覚と言語が異なるエントロピー軌道を辿る「モダリティ非対称符号化」、(ii)テキスト生成が高エントロピーの創造性を示す一方で画像合成が低エントロピーの忠実性を強制する「パターン分岐応答」。両側を統合するモデル(例:文脈的予測による)のみが、より真の統合を達成し、少ないパラメータ数でも推論に基づく強力なテキスト-to-画像生成を実現します。本研究は統合現象に対する初のモデル内部プロービングを提供し、真のマルチモーダル相乗効果には共有パラメータだけでなく、情報フローの一貫性が必要であることを実証します。
English
Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.