ChatPaper.aiChatPaper

Исследование передачи информации в MLLM-Diffusion с помощью MetaCanvas

Exploring MLLM-Diffusion Information Transfer with MetaCanvas

December 12, 2025
Авторы: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang
cs.AI

Аннотация

Мультимодальное обучение значительно продвинуло понимание визуальной информации, в основном благодаря мультимодальным большим языковым моделям (MLLM), которые используют мощные LLM в качестве когнитивных ядер. Однако в области визуальной генерации эти мощные модели-ядра обычно сводятся к роли глобальных текстовых энкодеров для диффузионных моделей, что оставляет большую часть их способностей к рассуждению и планированию неиспользованной. Это создает разрыв: современные мультимодальные LLM могут анализировать сложные компоновки, атрибуты и сцены, требующие обширных знаний, но при этом испытывают трудности с генерацией изображений или видео с таким же точным и структурированным контролем. Мы предлагаем MetaCanvas — легковесный фреймворк, который позволяет MLLM рассуждать и планировать непосредственно в пространственных и пространственно-временных латентных пространствах и тесно взаимодействовать с диффузионными генераторами. Мы эмпирически реализуем MetaCanvas на трех различных диффузионных бэкбонах и оцениваем его в шести задачах, включая генерацию изображений по тексту, генерацию видео по тексту/изображению, редактирование изображений/видео и контекстную генерацию видео, каждая из которых требует точной компоновки, надежного связывания атрибутов и интеллектуального контроля. MetaCanvas стабильно превосходит базовые методы с глобальным условием, что позволяет предположить, что использование MLLM в качестве планировщиков в латентном пространстве является перспективным направлением для сокращения разрыва между мультимодальным пониманием и генерацией.
English
Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.
PDF112December 17, 2025