통합 멀티모달 모델에서 이해가 생성을 알려주는가? 분석과 앞으로의 방향
Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
November 25, 2025
저자: Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
cs.AI
초록
최근 통합 멀티모달 모델에서 상당한 진전이 있었지만, '이해가 실제로 생성을 향상시키는가?'라는 근본적인 질문은 여전히 남아 있습니다. 이를 탐구하기 위해 우리는 데이터 누출을 방지하고 세부적인 분석을 가능하게 하는 통제된 합성 데이터셋과 결합된 분리형 평가 프레임워크인 UniSandbox를 소개합니다. 우리의 연구 결과는 주로 추론 생성과 지식 전달이라는 두 가지 핵심 차원에서 나타나는 상당한 이해-생성 간극을 보여줍니다. 구체적으로, 추론 생성 작업의 경우 이해 모듈에서 명시적인 사고 사슬(CoT)이 이 간극을 효과적으로 메우는 것을 관찰했으며, 자기 주도 학습 접근법을 통해 이 능력을 내재화하여 생성 과정에서 암묵적 추론이 가능해짐을 추가로 입증했습니다. 또한 지식 전달 작업의 경우, CoT가 새로 습득한 지식을 검색하도록 돕는 방식으로 생성 과정을 지원한다는 것을 발견했으며, 질의 기반 아키텍처가 이러한 전달에 영향을 미치는 잠재적 CoT 유사 특성을 본질적으로 보유한다는 점도 확인했습니다. UniSandbox는 이해와 생성 간의 간극을 진정으로 메우는 미래 통합 아키텍처와 학습 전략 설계를 위한 예비 통찰을 제공합니다. 코드와 데이터는 https://github.com/PKU-YuanGroup/UniSandBox에서 이용할 수 있습니다.
English
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox