ChatPaper.aiChatPaper

Exploración de la Transferencia de Información en MLLM-Difusión con MetaCanvas

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

December 12, 2025
Autores: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang
cs.AI

Resumen

El aprendizaje multimodal ha avanzado rápidamente en la comprensión visual, principalmente a través de los modelos de lenguaje grandes multimodales (MLLMs) que utilizan LLMs potentes como núcleos cognitivos. Sin embargo, en la generación visual, estos potentes modelos centrales suelen reducirse a codificadores de texto global para modelos de difusión, dejando la mayor parte de su capacidad de razonamiento y planificación sin uso. Esto crea una brecha: los MLLMs actuales pueden analizar diseños complejos, atributos y escenas intensivas en conocimiento, pero luchan por generar imágenes o videos con un control igualmente preciso y estructurado. Proponemos MetaCanvas, un marco liviano que permite a los MLLMs razonar y planificar directamente en espacios latentes espaciales y espaciotemporales, e interactuar estrechamente con generadores de difusión. Implementamos MetaCanvas empíricamente en tres arquitecturas de difusión diferentes y lo evaluamos en seis tareas, incluida la generación de texto a imagen, generación de texto/imagen a video, edición de imagen/video y generación de video en contexto, cada una requiriendo diseños precisos, vinculación robusta de atributos y control intensivo en razonamiento. MetaCanvas supera consistentemente a los baselines de condicionamiento global, lo que sugiere que tratar a los MLLMs como planificadores del espacio latente es una dirección prometedora para reducir la brecha entre la comprensión y la generación multimodal.
English
Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.
PDF112December 17, 2025