Pseudo-Unificación: La Exploración de la Entropía Revela Patrones de Información Divergentes en Modelos Multimodales Unificados

Resumen

Los modelos multimodales unificados (UMMs) fueron diseñados para combinar la capacidad de razonamiento de los grandes modelos de lenguaje (LLMs) con la capacidad de generación de los modelos de visión. Sin embargo, en la práctica, esta sinergia sigue siendo esquiva: los UMMs no logran transferir un razonamiento similar al de los LLMs a la síntesis de imágenes y exhiben comportamientos de respuesta divergentes. Denominamos a este fenómeno *pseudo-unificación*. Diagnosticar sus causas internas es importante, pero los métodos de sondeo existentes carecen de perspectiva interna del modelo o ignoran las dependencias entre el estímulo y la respuesta. Para abordar estas limitaciones, proponemos un marco de sondeo de teoría de la información que analiza conjuntamente cómo los UMMs codifican las entradas y generan las salidas. Aplicado a diez UMMs representativos, nuestro marco revela que la pseudo-unificación surge de una doble divergencia: (i) *Codificación Modal-Asimétrica*, donde la visión y el lenguaje siguen trayectorias de entropía diferentes, y (ii) *Respuesta de Patrón Dividido*, donde la generación de texto exhibe una creatividad de alta entropía mientras que la síntesis de imágenes impone una fidelidad de baja entropía. Solo los modelos que unifican ambos aspectos (por ejemplo, mediante predicción contextual) logran una unificación más genuina, permitiendo una generación de texto a imagen basada en un razonamiento más sólido incluso con menos parámetros. Nuestro trabajo proporciona el primer sondeo interno del modelo sobre la unificación, demostrando que la verdadera sinergia multimodal requiere consistencia en el flujo de información, no solo parámetros compartidos.

English

Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.

Pseudo-Unificación: La Exploración de la Entropía Revela Patrones de Información Divergentes en Modelos Multimodales Unificados

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Resumen

Support