Pseudo-Unifikation: Entropie-Analyse deckt divergierende Informationsmuster in vereinheitlichten multimodalen Modellen auf

Zusammenfassung

Vereinheitlichte multimodale Modelle (UMMs) wurden entwickelt, um die Denkfähigkeit großer Sprachmodelle (LLMs) mit der Generierungsfähigkeit von Bildmodellen zu kombinieren. In der Praxis bleibt diese Synergie jedoch schwer fassbar: UMMs können LLM-ähnliches Denken nicht auf die Bildsynthese übertragen und zeigen divergierende Antwortverhalten. Wir bezeichnen dieses Phänomen als Pseudounifikation. Die Diagnose ihrer internen Ursachen ist wichtig, doch bestehende Untersuchungsmethoden bieten entweder keine modellinternen Einblicke oder ignorieren Prompt-Antwort-Abhängigkeiten. Um diese Einschränkungen zu adressieren, schlagen wir ein informationstheoretisches Untersuchungsframework vor, das gemeinsam analysiert, wie UMMs Eingaben kodieren und Ausgaben generieren. Angewendet auf zehn repräsentative UMMs zeigt unser Framework, dass Pseudounifikation auf einer doppelten Divergenz beruht: (i) modalitätsasymmetrische Kodierung, bei der Sehen und Sprache unterschiedliche Entropiepfade verfolgen, und (ii) musteraufgespaltene Antwortgebung, bei der Textgenerierung kreative Hoch-Entropie zeigt, während Bildsynthese Niedrig-Entropie-Treue erzwingt. Nur Modelle, die beide Seiten vereinheitlichen (z.B. durch kontextuelle Vorhersage), erreichen eine echtere Unifikation und ermöglichen eine stärker reasoning-basierte Text-zu-Bild-Generierung selbst mit weniger Parametern. Unsere Arbeit bietet die erste modellinterne Untersuchung von Unifikation und zeigt, dass echte multimodale Synergie Konsistenz im Informationsfluss erfordert, nicht nur gemeinsame Parameter.

English

Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.

Pseudo-Unifikation: Entropie-Analyse deckt divergierende Informationsmuster in vereinheitlichten multimodalen Modellen auf

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Zusammenfassung

Support