LAMIC: Composição Multi-Imagem Consciente do Layout via Escalabilidade do Transformador de Difusão Multimodal
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer
August 1, 2025
Autores: Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
cs.AI
Resumo
Na síntese controlada de imagens, gerar imagens coerentes e consistentes a partir de múltiplas referências com consciência de layout espacial continua sendo um desafio em aberto. Apresentamos o LAMIC, um framework de Composição Multi-Imagem Consciente de Layout que, pela primeira vez, estende modelos de difusão de referência única para cenários de múltiplas referências de forma livre de treinamento. Construído sobre o modelo MMDiT, o LAMIC introduz dois mecanismos de atenção plug-and-play: 1) Atenção de Isolamento de Grupo (GIA) para melhorar o desembaraço de entidades; e 2) Atenção Modulada por Região (RMA) para permitir a geração consciente de layout. Para avaliar de forma abrangente as capacidades do modelo, introduzimos ainda três métricas: 1) Razão de Inclusão (IN-R) e Razão de Preenchimento (FI-R) para avaliar o controle de layout; e 2) Similaridade de Fundo (BG-S) para medir a consistência do fundo. Experimentos extensivos mostram que o LAMIC alcança desempenho de ponta na maioria das métricas principais: ele consistentemente supera as linhas de base de múltiplas referências existentes em ID-S, BG-S, IN-R e pontuações AVG em todas as configurações, e alcança o melhor DPG em tarefas de composição complexas. Esses resultados demonstram as habilidades superiores do LAMIC em manutenção de identidade, preservação de fundo, controle de layout e seguimento de prompt, tudo alcançado sem qualquer treinamento ou ajuste fino, mostrando uma forte capacidade de generalização zero-shot. Ao herdar os pontos fortes dos modelos avançados de referência única e permitir uma extensão perfeita para cenários de múltiplas imagens, o LAMIC estabelece um novo paradigma livre de treinamento para composição controlada de múltiplas imagens. À medida que os modelos de base continuam a evoluir, espera-se que o desempenho do LAMIC escale de acordo. Nossa implementação está disponível em: https://github.com/Suchenl/LAMIC.
English
In controllable image synthesis, generating coherent and consistent images
from multiple references with spatial layout awareness remains an open
challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework
that, for the first time, extends single-reference diffusion models to
multi-reference scenarios in a training-free manner. Built upon the MMDiT
model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group
Isolation Attention (GIA) to enhance entity disentanglement; and 2)
Region-Modulated Attention (RMA) to enable layout-aware generation. To
comprehensively evaluate model capabilities, we further introduce three
metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout
control; and 2) Background Similarity (BG-S) for measuring background
consistency. Extensive experiments show that LAMIC achieves state-of-the-art
performance across most major metrics: it consistently outperforms existing
multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all
settings, and achieves the best DPG in complex composition tasks. These results
demonstrate LAMIC's superior abilities in identity keeping, background
preservation, layout control, and prompt-following, all achieved without any
training or fine-tuning, showcasing strong zero-shot generalization ability. By
inheriting the strengths of advanced single-reference models and enabling
seamless extension to multi-image scenarios, LAMIC establishes a new
training-free paradigm for controllable multi-image composition. As foundation
models continue to evolve, LAMIC's performance is expected to scale
accordingly. Our implementation is available at:
https://github.com/Suchenl/LAMIC.