Esplorazione del trasferimento di informazioni MLLM-Diffusion con MetaCanvas
Exploring MLLM-Diffusion Information Transfer with MetaCanvas
December 12, 2025
Autori: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang
cs.AI
Abstract
L'apprendimento multimodale ha rapidamente fatto progredire la comprensione visiva, principalmente attraverso i modelli linguistici multimodali di grandi dimensioni (MLLM) che utilizzano potenti LLM come nuclei cognitivi. Nella generazione visiva, tuttavia, questi potenti modelli centrali sono tipicamente ridotti a encoder di testo globali per i modelli di diffusione, lasciando inutilizzata la maggior parte delle loro capacità di ragionamento e pianificazione. Ciò crea un divario: gli attuali MLLM multimodali possono analizzare layout complessi, attributi e scene ad alta intensità di conoscenza, ma faticano a generare immagini o video con un controllo altrettanto preciso e strutturato. Proponiamo MetaCanvas, un framework leggero che consente agli MLLM di ragionare e pianificare direttamente negli spazi latenti spaziali e spazio-temporali e di interfacciarsi strettamente con i generatori di diffusione. Implementiamo empiricamente MetaCanvas su tre diversi backbone di diffusione e lo valutiamo in sei compiti, inclusi la generazione di immagini da testo, la generazione di video da testo/immagini, l'editing di immagini/video e la generazione di video in contesto, ciascuno dei quali richiede un controllo preciso dei layout, un robusto binding degli attributi e un controllo intensivo di ragionamento. MetaCanvas supera costantemente i baseline di condizionamento globale, suggerendo che trattare gli MLLM come pianificatori nello spazio latente sia una direzione promettente per colmare il divario tra comprensione e generazione multimodale.
English
Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.