Pseudo-Unificação: Sondagem de Entropia Revela Padrões de Informação Divergentes em Modelos Multimodais Unificados

Resumo

Os modelos multimodais unificados (UMMs) foram concebidos para combinar a capacidade de raciocínio dos grandes modelos de linguagem (LLMs) com a capacidade de geração dos modelos de visão. Na prática, no entanto, essa sinergia permanece ilusória: os UMMs não conseguem transferir o raciocínio semelhante ao dos LLMs para a síntese de imagens e exibem comportamentos de resposta divergentes. Denominamos este fenômeno de pseudo-unificação. Diagnosticar suas causas internas é importante, mas os métodos de sondagem existentes ou carecem de perspetiva interna do modelo ou ignoram as dependências entre *prompt* e resposta. Para superar estas limitações, propomos uma estrutura de sondagem baseada na teoria da informação que analisa conjuntamente como os UMMs codificam os *inputs* e geram os *outputs*. Aplicada a dez UMMs representativos, nossa estrutura revela que a pseudo-unificação decorre de uma divergência dual: (i) Codificação Modo-Assimétrica, onde a visão e a linguagem seguem trajetórias de entropia diferentes, e (ii) Resposta de Padrão Dividido, onde a geração de texto exibe criatividade de alta entropia, enquanto a síntese de imagem impõe uma fidelidade de baixa entropia. Apenas os modelos que unificam ambos os lados (por exemplo, via predição contextual) alcançam uma unificação mais genuína, permitindo uma geração de texto para imagem baseada em raciocínio mais forte, mesmo com menos parâmetros. O nosso trabalho fornece a primeira sondagem interna do modelo sobre a unificação, demonstrando que a verdadeira sinergia multimodal requer consistência no fluxo de informação, e não apenas parâmetros partilhados.

English

Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.

Pseudo-Unificação: Sondagem de Entropia Revela Padrões de Informação Divergentes em Modelos Multimodais Unificados

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Resumo

Support