ChatPaper.aiChatPaper

Het Verkennen van MLLM-Diffusion Informatieoverdracht met MetaCanvas

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

December 12, 2025
Auteurs: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang
cs.AI

Samenvatting

Multimodaal leren heeft het visuele begrip snel vooruitgeholpen, grotendeels dankzij multimodale grote-taalmmodellen (MLLM's) die krachtige LLM's als cognitieve kern gebruiken. In visuele generatie worden deze krachtige kernmodellen echter meestal gereduceerd tot globale tekstencoders voor diffusiemodellen, waardoor het grootste deel van hun redeneer- en planningsvermogen onbenut blijft. Dit creëert een kloof: huidige multimodale LLM's kunnen complexe lay-outs, attributen en kennisintensieve scènes ontleden, maar hebben moeite om afbeeldingen of video's te genereren met even precieze en gestructureerde controle. Wij stellen MetaCanvas voor, een lichtgewicht raamwerk dat MLLM's in staat stelt direct te redeneren en plannen in ruimtelijke en ruimtelijk-temporele latente ruimten en nauw aan te sluiten bij diffusiegeneratoren. We implementeren MetaCanvas empirisch op drie verschillende diffusie-backbones en evalueren het op zes taken, waaronder tekst-naar-beeldgeneratie, tekst/beeld-naar-videogeneratie, beeld/videobewerking en in-context videogeneratie, die elk precieze lay-outs, robuuste attribuutbinding en reasoning-intensieve controle vereisen. MetaCanvas presteert consistent beter dan baseline-methoden met globale conditionering, wat suggereert dat het behandelen van MLLM's als latent-space planners een veelbelovende richting is om de kloof tussen multimodaal begrip en generatie te verkleinen.
English
Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.
PDF112December 17, 2025