Exploration du transfert d'information MLLM-Diffusion avec MetaCanvas
Exploring MLLM-Diffusion Information Transfer with MetaCanvas
December 12, 2025
papers.authors: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang
cs.AI
papers.abstract
L'apprentissage multimodal a rapidement fait progresser la compréhension visuelle, principalement grâce aux grands modèles de langage multimodal (MLLMs) qui utilisent des LLMs puissants comme cœurs cognitifs. Dans la génération visuelle, cependant, ces modèles centraux puissants sont généralement réduits à des encodeurs de texte globaux pour les modèles de diffusion, laissant la majeure partie de leur capacité de raisonnement et de planification inutilisée. Cela crée un écart : les MLLMs actuels peuvent analyser des mises en page complexes, des attributs et des scènes riches en connaissances, mais peinent à générer des images ou des vidéos avec un contrôle aussi précis et structuré. Nous proposons MetaCanvas, un cadre léger qui permet aux MLLMs de raisonner et de planifier directement dans les espaces latents spatiaux et spatio-temporels et d'interagir étroitement avec les générateurs de diffusion. Nous implémentons empiriquement MetaCanvas sur trois architectures de diffusion différentes et l'évaluons sur six tâches, incluant la génération d'images à partir de texte, la génération de vidéos à partir de texte/d'image, l'édition d'images/vidéos et la génération de vidéos contextuelles, chacune exigeant un contrôle précis des mises en page, une liaison robuste des attributs et un raisonnement poussé. MetaCanvas surpasse systématiquement les modèles de référence à conditionnement global, suggérant que traiter les MLLMs comme des planificateurs dans l'espace latent est une direction prometteuse pour combler l'écart entre la compréhension et la génération multimodales.
English
Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.