가짜 통합: 엔트로피 탐색을 통한 통합 멀티모달 모델의 상이한 정보 패턴 분석
Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models
April 13, 2026
저자: Songlin Yang, Xianghao Kong, Anyi Rao
cs.AI
초록
통합 멀티모달 모델(UMMs)은 대규모 언어 모델(LLMs)의 추론 능력과 비전 모델의 생성 능력을 결합하도록 설계되었습니다. 그러나 실제로는 이러한 시너지 효과가 여전히 달성되지 않고 있습니다: UMMs는 이미지 생성에 LLM과 유사한 추론을 전달하지 못하며 상이한 응답 행동을 보입니다. 우리는 이러한 현상을 의사-통합(Pseudo-unification)이라고 명명합니다. 이 현상의 내부적 원인을 진단하는 것은 중요하지만, 기존의 프로빙 방법은 모델 내부 통찰력이 부족하거나 프롬프트-응답 간의 의존성을 무시합니다. 이러한 한계를 해결하기 위해, 우리는 UMMs가 입력을 인코딩하고 출력을 생성하는 방식을 함께 분석하는 정보 이론적 프로빙 프레임워크를 제안합니다. 10개의 대표적인 UMMs에 적용한 결과, 우리의 프레임워크는 의사-통합이 이중적 발산(Dual divergence)에서 비롯됨을 보여줍니다: (i) 모달리티-비대칭 인코딩(Modality-Asymmetric Encoding), 즉 비전과 언어가 서로 다른 엔트로피 경로를 따르는 현상, 그리고 (ii) 패턴-분할 응답(Pattern-Split Response), 즉 텍스트 생성은 높은 엔트로피의 창의성을 보이는 반면 이미지 생성은 낮은 엔트로피의 정확도를 강제하는 현상입니다. 양측을 통합하는 모델들(예: 컨텍스트 예측을 통해)만이 더 진정한 통합을 달성하며, 더 적은 매개변수로도 더 강력한 추론 기반 텍스트-이미지 생성을 가능하게 합니다. 우리의 연구는 통합 현상에 대한 최초의 모델 내부 프로빙을 제공하며, 진정한 멀티모달 시너지는 단순한 매개변수 공유가 아닌 정보 흐름의 일관성을 필요로 함을 입증합니다.
English
Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.