LAMIC: Composição Multi-Imagem Consciente do Layout via Escalabilidade do Transformador de Difusão Multimodal

Resumo

Na síntese controlada de imagens, gerar imagens coerentes e consistentes a partir de múltiplas referências com consciência de layout espacial continua sendo um desafio em aberto. Apresentamos o LAMIC, um framework de Composição Multi-Imagem Consciente de Layout que, pela primeira vez, estende modelos de difusão de referência única para cenários de múltiplas referências de forma livre de treinamento. Construído sobre o modelo MMDiT, o LAMIC introduz dois mecanismos de atenção plug-and-play: 1) Atenção de Isolamento de Grupo (GIA) para melhorar o desembaraço de entidades; e 2) Atenção Modulada por Região (RMA) para permitir a geração consciente de layout. Para avaliar de forma abrangente as capacidades do modelo, introduzimos ainda três métricas: 1) Razão de Inclusão (IN-R) e Razão de Preenchimento (FI-R) para avaliar o controle de layout; e 2) Similaridade de Fundo (BG-S) para medir a consistência do fundo. Experimentos extensivos mostram que o LAMIC alcança desempenho de ponta na maioria das métricas principais: ele consistentemente supera as linhas de base de múltiplas referências existentes em ID-S, BG-S, IN-R e pontuações AVG em todas as configurações, e alcança o melhor DPG em tarefas de composição complexas. Esses resultados demonstram as habilidades superiores do LAMIC em manutenção de identidade, preservação de fundo, controle de layout e seguimento de prompt, tudo alcançado sem qualquer treinamento ou ajuste fino, mostrando uma forte capacidade de generalização zero-shot. Ao herdar os pontos fortes dos modelos avançados de referência única e permitir uma extensão perfeita para cenários de múltiplas imagens, o LAMIC estabelece um novo paradigma livre de treinamento para composição controlada de múltiplas imagens. À medida que os modelos de base continuam a evoluir, espera-se que o desempenho do LAMIC escale de acordo. Nossa implementação está disponível em: https://github.com/Suchenl/LAMIC.

English

In controllable image synthesis, generating coherent and consistent images from multiple references with spatial layout awareness remains an open challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework that, for the first time, extends single-reference diffusion models to multi-reference scenarios in a training-free manner. Built upon the MMDiT model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group Isolation Attention (GIA) to enhance entity disentanglement; and 2) Region-Modulated Attention (RMA) to enable layout-aware generation. To comprehensively evaluate model capabilities, we further introduce three metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout control; and 2) Background Similarity (BG-S) for measuring background consistency. Extensive experiments show that LAMIC achieves state-of-the-art performance across most major metrics: it consistently outperforms existing multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all settings, and achieves the best DPG in complex composition tasks. These results demonstrate LAMIC's superior abilities in identity keeping, background preservation, layout control, and prompt-following, all achieved without any training or fine-tuning, showcasing strong zero-shot generalization ability. By inheriting the strengths of advanced single-reference models and enabling seamless extension to multi-image scenarios, LAMIC establishes a new training-free paradigm for controllable multi-image composition. As foundation models continue to evolve, LAMIC's performance is expected to scale accordingly. Our implementation is available at: https://github.com/Suchenl/LAMIC.

LAMIC: Composição Multi-Imagem Consciente do Layout via Escalabilidade do Transformador de Difusão Multimodal

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

Resumo

Support