Pseudo-unification : l'exploration de l'entropie révèle des schémas informationnels divergents dans les modèles multimodaux unifiés

Résumé

Les modèles multimodaux unifiés (UMM) ont été conçus pour combiner la capacité de raisonnement des grands modèles de langage (LLM) avec la capacité de génération des modèles de vision. En pratique, cependant, cette synergie reste insaisissable : les UMM ne parviennent pas à transférer un raisonnement de type LLM à la synthèse d'images et présentent des comportements de réponse divergents. Nous qualifions ce phénomène de *pseudo-unification*. Diagnostiquer ses causes internes est important, mais les méthodes de sondage existantes manquent soit de perspicacité sur les mécanismes internes des modèles, soit ignorent les dépendances entre les invites et les réponses. Pour remédier à ces limitations, nous proposons un cadre de sondage informationnel qui analyse conjointement la manière dont les UMM encodent les entrées et génèrent les sorties. Appliqué à dix UMM représentatifs, notre cadre révèle que la pseudo-unification découle d'une double divergence : (i) un *Encodage Modulo-Asymétrique*, où la vision et le langage suivent des trajectoires d'entropie différentes, et (ii) une *Réponse à Modèles Dissociés*, où la génération de texte fait preuve d'une créativité à haute entropie tandis que la synthèse d'images impose une fidélité à basse entropie. Seuls les modèles qui unifient les deux aspects (par exemple, via la prédiction contextuelle) atteignent une unification plus authentique, permettant une génération d'images par raisonnement à partir de texte plus performante, même avec moins de paramètres. Notre travail constitue le premier sondage interne des modèles sur l'unification, démontrant qu'une réelle synergie multimodale nécessite une cohérence du flux d'information, et pas seulement des paramètres partagés.

English

Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.

Pseudo-unification : l'exploration de l'entropie révèle des schémas informationnels divergents dans les modèles multimodaux unifiés

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Résumé

Support