LAMIC: Composizione Multi-Immagine Consapevole del Layout tramite Scalabilità del Trasformatore di Diffusione Multimodale
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer
August 1, 2025
Autori: Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
cs.AI
Abstract
Nella sintesi controllata di immagini, generare immagini coerenti e consistenti da più riferimenti con consapevolezza del layout spaziale rimane una sfida aperta. Presentiamo LAMIC, un framework di composizione multi-immagine con consapevolezza del layout che, per la prima volta, estende i modelli di diffusione a singolo riferimento a scenari multi-riferimento in modo privo di addestramento. Basato sul modello MMDiT, LAMIC introduce due meccanismi di attenzione plug-and-play: 1) Group Isolation Attention (GIA) per migliorare la separazione delle entità; e 2) Region-Modulated Attention (RMA) per abilitare la generazione con consapevolezza del layout. Per valutare in modo completo le capacità del modello, introduciamo ulteriormente tre metriche: 1) Inclusion Ratio (IN-R) e Fill Ratio (FI-R) per valutare il controllo del layout; e 2) Background Similarity (BG-S) per misurare la consistenza dello sfondo. Esperimenti estesi dimostrano che LAMIC raggiunge prestazioni all'avanguardia nella maggior parte delle metriche principali: supera costantemente le baseline multi-riferimento esistenti nei punteggi ID-S, BG-S, IN-R e AVG in tutte le configurazioni, e ottiene il miglior DPG nei compiti di composizione complessi. Questi risultati dimostrano le superiori capacità di LAMIC nel mantenimento dell'identità, nella conservazione dello sfondo, nel controllo del layout e nel seguire i prompt, tutto ottenuto senza alcun addestramento o fine-tuning, mostrando una forte capacità di generalizzazione zero-shot. Ereditando i punti di forza dei modelli avanzati a singolo riferimento e abilitando un'estensione senza soluzione di continuità a scenari multi-immagine, LAMIC stabilisce un nuovo paradigma privo di addestramento per la composizione controllata di più immagini. Man mano che i modelli di base continuano a evolversi, ci si aspetta che le prestazioni di LAMIC si adeguino di conseguenza. La nostra implementazione è disponibile all'indirizzo: https://github.com/Suchenl/LAMIC.
English
In controllable image synthesis, generating coherent and consistent images
from multiple references with spatial layout awareness remains an open
challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework
that, for the first time, extends single-reference diffusion models to
multi-reference scenarios in a training-free manner. Built upon the MMDiT
model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group
Isolation Attention (GIA) to enhance entity disentanglement; and 2)
Region-Modulated Attention (RMA) to enable layout-aware generation. To
comprehensively evaluate model capabilities, we further introduce three
metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout
control; and 2) Background Similarity (BG-S) for measuring background
consistency. Extensive experiments show that LAMIC achieves state-of-the-art
performance across most major metrics: it consistently outperforms existing
multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all
settings, and achieves the best DPG in complex composition tasks. These results
demonstrate LAMIC's superior abilities in identity keeping, background
preservation, layout control, and prompt-following, all achieved without any
training or fine-tuning, showcasing strong zero-shot generalization ability. By
inheriting the strengths of advanced single-reference models and enabling
seamless extension to multi-image scenarios, LAMIC establishes a new
training-free paradigm for controllable multi-image composition. As foundation
models continue to evolve, LAMIC's performance is expected to scale
accordingly. Our implementation is available at:
https://github.com/Suchenl/LAMIC.