Pseudo-Unificazione: L'Analisi dell'Entropia Rivela Modelli Informativi Divergenti nei Modelli Multimodali Unificati

Abstract

I modelli multimodali unificati (UMM) sono stati concepiti per combinare la capacità di ragionamento dei grandi modelli linguistici (LLM) con la capacità generativa dei modelli visivi. Tuttavia, nella pratica, questa sinergia rimane elusiva: gli UMM non riescono a trasferire un ragionamento simile a quello degli LLM nella sintesi di immagini ed esibiscono comportamenti di risposta divergenti. Definiamo questo fenomeno *pseudo-unificazione*. Diagnosticarne le cause interne è importante, ma i metodi di analisi esistenti o mancano di insight interno al modello o ignorano le dipendenze tra prompt e risposta. Per affrontare queste limitazioni, proponiamo un framework di analisi di tipo information-theoretic che analizza congiuntamente come gli UMM codificano gli input e generano gli output. Applicato a dieci UMM rappresentativi, il nostro framework rivela che la pseudo-unificazione origina da una duplice divergenza: (i) *Codifica Modo-Asimmetrica*, dove la visione e il linguaggio seguono traiettorie di entropia diverse, e (ii) *Risposta a Pattern Separati*, dove la generazione di testo mostra un'elevata entropia creativa mentre la sintesi di immagini impone una fedeltà a bassa entropia. Solo i modelli che unificano entrambi gli aspetti (ad esempio, tramite predizione contestuale) raggiungono un'unificazione più genuina, abilitando una generazione testo-immagine basata sul ragionamento più robusta anche con un numero inferiore di parametri. Il nostro lavoro fornisce la prima analisi interna al modello dell'unificazione, dimostrando che una reale sinergia multimodale richiede coerenza nel flusso di informazioni, non solo parametri condivisi.

English

Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.

Pseudo-Unificazione: L'Analisi dell'Entropia Rivela Modelli Informativi Divergenti nei Modelli Multimodali Unificati

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Abstract

Support