MetaCanvas를 통한 MLLM-확산 정보 전달 탐구
Exploring MLLM-Diffusion Information Transfer with MetaCanvas
December 12, 2025
저자: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang
cs.AI
초록
멀티모달 학습은 강력한 대형 언어 모델(LLM)을 인지 코어로 활용하는 멀티모달 대형 언어 모델(MLLM)을 통해 시각적 이해 분야에서 빠르게 발전해왔습니다. 그러나 시각 생성 영역에서는 이러한 강력한 코어 모델이 일반적으로 확산 모델을 위한 전역 텍스트 인코더로 축소되어, 그들의 대부분의 추론 및 계획 능력이 사용되지 못하고 있습니다. 이로 인해 간극이 발생합니다: 현재의 멀티모달 LLM은 복잡한 레이아웃, 속성, 지식 집약적 장면을 분석할 수 있지만, 동일한 수준의 정밀하고 구조화된 제어를 통해 이미지나 동영상을 생성하는 데는 어려움을 겪습니다. 우리는 MLLM이 공간적 및 시공간적 잠재 공간에서 직접 추론하고 계획하며 확산 생성기와 긴밀하게 상호작용할 수 있도록 하는 경량 프레임워크인 MetaCanvas를 제안합니다. 우리는 MetaCanvas를 세 가지 다른 확산 백본에 대해 실증적으로 구현하고, 정확한 레이아웃, 견고한 속성 바인딩, 추론 집약적 제어가 각각 필요한 텍스트-이미지 생성, 텍스트/이미지-동영상 생성, 이미지/동영상 편집, 그리고 컨텍스트 내 동영상 생성 등 여섯 가지 작업에 걸쳐 평가합니다. MetaCanvas는 전역 조건 설정 기반선행 모델들을 지속적으로 능가하며, MLLM을 잠재 공간 계획자로 간주하는 것이 멀티모달 이해와 생성 간의 간극을 좁히는 유망한 방향임을 시사합니다.
English
Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.