ChatPaper.aiChatPaper

Erkundung des MLLM-Diffusions-Informations-Transfers mit MetaCanvas

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

December 12, 2025
papers.authors: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang
cs.AI

papers.abstract

Multimodales Lernen hat das visuelle Verständnis rapide vorangetrieben, hauptsächlich durch multimodale große Sprachmodelle (MLLMs), die leistungsstarke LLMs als kognitive Kerne nutzen. In der visuellen Generierung werden diese leistungsfähigen Kernmodelle jedoch typischerweise auf globale Text-Encoder für Diffusionsmodelle reduziert, wodurch der Großteil ihrer Fähigkeiten zum Schlussfolgern und Planen ungenutzt bleibt. Dies erzeugt eine Lücke: Aktuelle multimodale LLMs können komplexe Layouts, Attribute und wissensintensive Szenen analysieren, haben aber Schwierigkeiten, Bilder oder Videos mit ebenso präziser und strukturierter Steuerung zu generieren. Wir schlagen MetaCanvas vor, ein leichtgewichtiges Framework, das es MLLMs ermöglicht, direkt in räumlichen und raumzeitlichen latenten Räumen zu schlussfolgern und zu planen und eng mit Diffusions-Generatoren zu interagieren. Wir implementieren MetaCanvas empirisch auf drei verschiedenen Diffusions-Backbones und evaluieren es über sechs Aufgaben hinweg, einschließlich Text-zu-Bild-Generierung, Text-/Bild-zu-Video-Generierung, Bild-/Video-Bearbeitung und kontextbezogener Video-Generierung, wobei jede präzise Layouts, robuste Attributbindung und reasoning-intensive Steuerung erfordert. MetaCanvas übertrifft durchgängig Baseline-Methoden mit globaler Konditionierung, was darauf hindeutet, dass die Behandlung von MLLMs als Planer im latenten Raum eine vielversprechende Richtung ist, um die Lücke zwischen multimodalem Verständnis und Generierung zu schließen.
English
Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.
PDF112December 17, 2025