Псевдоунификация: анализ энтропии выявляет расходящиеся информационные паттерны в унифицированных мультимодальных моделях

Аннотация

Унифицированные мультимодальные модели (UMM) были созданы для объединения способности к рассуждению больших языковых моделей (LLM) с возможностью генерации визуальных моделей. Однако на практике эта синергия остается недостижимой: UMM не способны перенести рассуждения, подобные LLM, на синтез изображений и демонстрируют противоречивое поведение при генерации ответов. Мы называем этот феномен псевдо-унификацией. Диагностика его внутренних причин важна, но существующие методы probing-анализа либо лишены доступа к внутреннему состоянию модели, либо игнорируют зависимости между промптом и ответом. Для преодоления этих ограничений мы предлагаем информационно-теоретическую framework для probing-анализа, который совместно исследует, как UMM кодируют входные данные и генерируют выходные. Применение этого подхода к десяти репрезентативным UMM выявило, что псевдо-унификация проистекает из двойственного расхождения: (i) Модально-асимметричное кодирование, при котором зрительные и языковые данные следуют разным энтропийным траекториям, и (ii) Разделение по паттернам генерации, при котором генерация текста демонстрирует высокоэнтропийную креативность, а синтез изображений обеспечивает низкоэнтропийную точность. Только модели, унифицирующие оба аспекта (например, через контекстное предсказание), достигают более подлинной унификации, обеспечивая лучшую генерацию изображений по тексту на основе рассуждений даже при меньшем количестве параметров. Наша работа представляет первую попытку внутреннего probing-анализа унификации, показывая, что реальная мультимодальная синергия требует согласованности информационных потоков, а не просто общих параметров.

English

Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.

Псевдоунификация: анализ энтропии выявляет расходящиеся информационные паттерны в унифицированных мультимодальных моделях

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Аннотация

Support