ChatPaper.aiChatPaper

メタキャンバスを用いたMLLM-拡散モデル間情報伝達の探求

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

December 12, 2025
著者: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang
cs.AI

要旨

マルチモーダル学習は、強力な大規模言語モデル(LLM)を認知中核として活用するマルチモーダル大規模言語モデル(MLLM)を通じて、視覚理解を急速に発展させてきた。しかし、視覚生成の分野では、これらの強力な中核モデルは通常、拡散モデルのための大域的なテキストエンコーダーに縮小され、その推論・計画能力の大部分が未活用のままとなっている。これにより、現在のマルチモーダルLLMは複雑なレイアウト、属性、知識集約的なシーンを解析できる一方、同等に精密で構造化された制御を伴う画像や動画の生成には課題を抱えるというギャップが生じている。本研究では、MLLMが空間的および時空間的な潜在空間内で直接推論・計画を行い、拡散生成モデルと密接に連携する軽量フレームワーク「MetaCanvas」を提案する。我々はMetaCanvasを3つの異なる拡散モデルバックボーン上で実装し、テキストからの画像生成、テキスト/画像からの動画生成、画像/動画編集、文脈内動画生成を含む6つのタスクにおいて評価を行った。各タスクは精密なレイアウト、堅牢な属性バインディング、推論集約的な制御を必要とする。MetaCanvasは一貫して大域的條件付けベースラインを上回り、MLLMを潜在空間プランナーとして扱うことが、マルチモーダル理解と生成のギャップを埋める有望な方向性であることを示唆している。
English
Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.
PDF112December 17, 2025