Explorando a Transferência de Informações MLLM-Difusão com o MetaCanvas
Exploring MLLM-Diffusion Information Transfer with MetaCanvas
December 12, 2025
Autores: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang
cs.AI
Resumo
A aprendizagem multimodal tem avançado rapidamente na compreensão visual, principalmente através dos modelos de linguagem grandes multimodais (MLLMs) que utilizam LLMs poderosos como núcleos cognitivos. Na geração visual, no entanto, estes modelos centrais poderosos são tipicamente reduzidos a codificadores de texto globais para modelos de difusão, deixando a maior parte da sua capacidade de raciocínio e planeamento por utilizar. Isto cria uma lacuna: os actuais MLLMs multimodais podem analisar layouts complexos, atributos e cenas intensivas em conhecimento, mas lutam para gerar imagens ou vídeos com um controlo igualmente preciso e estruturado. Propomos o MetaCanvas, uma estrutura leve que permite aos MLLMs raciocinar e planear directamente em espaços latentes espaciais e espaço-temporais e interagir estreitamente com geradores de difusão. Implementamos empiricamente o MetaCanvas em três backbones de difusão diferentes e avaliamo-lo em seis tarefas, incluindo geração de texto para imagem, geração de texto/imagem para vídeo, edição de imagem/vídeo e geração de vídeo em contexto, cada uma exigindo layouts precisos, vinculação robusta de atributos e controlo intensivo em raciocínio. O MetaCanvas supera consistentemente as linhas de base de condicionamento global, sugerindo que tratar os MLLMs como planeadores de espaço latente é uma direcção promissora para reduzir a lacuna entre a compreensão e a geração multimodais.
English
Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.