Pseudo-unificatie: Entropie-onderzoek onthult uiteenlopende informatiepatronen in geünificeerde multimodale modellen

Samenvatting

Unified multimodale modellen (UMM's) werden ontworpen om het redeneervermogen van grote taalmmodellen (LLM's) te combineren met de generatiecapaciteit van visiemodellen. In de praktijk blijft deze synergie echter ongrijpbaar: UMM's slagen er niet in om LLM-achtig redeneren over te dragen naar beeldgeneratie en vertonen divergente responsgedragingen. Wij duiden dit fenomeen aan als pseudo-unificatie. Het diagnosticeren van de interne oorzaken is belangrijk, maar bestaande onderzoeksmethoden bieden ofwel geen inzicht in het modelinterieur, of negeren de afhankelijkheden tussen prompt en respons. Om deze beperkingen aan te pakken, stellen wij een informatie-theoretisch onderzoeksraamwerk voor dat gezamenlijk analyseert hoe UMM's invoer coderen en uitvoer genereren. Toegepast op tien representatieve UMM's onthult ons raamwerk dat pseudo-unificatie voortkomt uit een dubbele divergentie: (i) Modality-Asymmetrische Codering, waarbij visie en taal verschillende entropietrajecten volgen, en (ii) Patroongesplitste Respons, waarbij tekstgeneratie een hoge-entropie creativiteit vertoont, terwijl beeldgeneratie een lage-entropie trouw afdwingt. Alleen modellen die beide kanten verenigen (bijvoorbeeld via contextuele voorspelling) bereiken een meer authentieke unificatie, wat sterkere, op redenering gebaseerde tekst-naar-beeldgeneratie mogelijk maakt, zelfs met minder parameters. Ons werk biedt de eerste modelinterne analyse van unificatie en toont aan dat echte multimodale synergie consistentie in de informatiestroom vereist, niet alleen gedeelde parameters.

English

Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.

Pseudo-unificatie: Entropie-onderzoek onthult uiteenlopende informatiepatronen in geünificeerde multimodale modellen

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Samenvatting

Support