LAMIC: Композиция нескольких изображений с учетом макета через масштабируемость мультимодального трансформатора диффузии
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer
August 1, 2025
Авторы: Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
cs.AI
Аннотация
В управляемом синтезе изображений создание согласованных и последовательных изображений на основе нескольких референсов с учетом пространственной компоновки остается открытой проблемой. Мы представляем LAMIC — фреймворк для композиции нескольких изображений с учетом компоновки, который впервые расширяет модели диффузии с одним референсом на сценарии с несколькими референсами без необходимости обучения. Построенный на основе модели MMDiT, LAMIC вводит два механизма внимания, работающих по принципу "plug-and-play": 1) Group Isolation Attention (GIA) для улучшения разделения сущностей и 2) Region-Modulated Attention (RMA) для генерации с учетом компоновки. Для всесторонней оценки возможностей модели мы также вводим три метрики: 1) Inclusion Ratio (IN-R) и Fill Ratio (FI-R) для оценки управления компоновкой и 2) Background Similarity (BG-S) для измерения согласованности фона. Многочисленные эксперименты показывают, что LAMIC достигает наилучших результатов по большинству ключевых метрик: он стабильно превосходит существующие базовые модели с несколькими референсами по показателям ID-S, BG-S, IN-R и AVG во всех настройках и демонстрирует наилучший DPG в задачах сложной композиции. Эти результаты демонстрируют превосходные способности LAMIC в сохранении идентичности, сохранении фона, управлении компоновкой и следовании текстовым инструкциям, все это достигается без какого-либо обучения или тонкой настройки, что подчеркивает сильную способность к обобщению в условиях "zero-shot". Наследуя преимущества передовых моделей с одним референсом и обеспечивая бесшовное расширение на сценарии с несколькими изображениями, LAMIC устанавливает новую парадигму управляемой композиции нескольких изображений без необходимости обучения. По мере развития базовых моделей ожидается, что производительность LAMIC будет масштабироваться соответствующим образом. Наша реализация доступна по адресу: https://github.com/Suchenl/LAMIC.
English
In controllable image synthesis, generating coherent and consistent images
from multiple references with spatial layout awareness remains an open
challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework
that, for the first time, extends single-reference diffusion models to
multi-reference scenarios in a training-free manner. Built upon the MMDiT
model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group
Isolation Attention (GIA) to enhance entity disentanglement; and 2)
Region-Modulated Attention (RMA) to enable layout-aware generation. To
comprehensively evaluate model capabilities, we further introduce three
metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout
control; and 2) Background Similarity (BG-S) for measuring background
consistency. Extensive experiments show that LAMIC achieves state-of-the-art
performance across most major metrics: it consistently outperforms existing
multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all
settings, and achieves the best DPG in complex composition tasks. These results
demonstrate LAMIC's superior abilities in identity keeping, background
preservation, layout control, and prompt-following, all achieved without any
training or fine-tuning, showcasing strong zero-shot generalization ability. By
inheriting the strengths of advanced single-reference models and enabling
seamless extension to multi-image scenarios, LAMIC establishes a new
training-free paradigm for controllable multi-image composition. As foundation
models continue to evolve, LAMIC's performance is expected to scale
accordingly. Our implementation is available at:
https://github.com/Suchenl/LAMIC.