LAMIC: Composizione Multi-Immagine Consapevole del Layout tramite Scalabilità del Trasformatore di Diffusione Multimodale

Abstract

Nella sintesi controllata di immagini, generare immagini coerenti e consistenti da più riferimenti con consapevolezza del layout spaziale rimane una sfida aperta. Presentiamo LAMIC, un framework di composizione multi-immagine con consapevolezza del layout che, per la prima volta, estende i modelli di diffusione a singolo riferimento a scenari multi-riferimento in modo privo di addestramento. Basato sul modello MMDiT, LAMIC introduce due meccanismi di attenzione plug-and-play: 1) Group Isolation Attention (GIA) per migliorare la separazione delle entità; e 2) Region-Modulated Attention (RMA) per abilitare la generazione con consapevolezza del layout. Per valutare in modo completo le capacità del modello, introduciamo ulteriormente tre metriche: 1) Inclusion Ratio (IN-R) e Fill Ratio (FI-R) per valutare il controllo del layout; e 2) Background Similarity (BG-S) per misurare la consistenza dello sfondo. Esperimenti estesi dimostrano che LAMIC raggiunge prestazioni all'avanguardia nella maggior parte delle metriche principali: supera costantemente le baseline multi-riferimento esistenti nei punteggi ID-S, BG-S, IN-R e AVG in tutte le configurazioni, e ottiene il miglior DPG nei compiti di composizione complessi. Questi risultati dimostrano le superiori capacità di LAMIC nel mantenimento dell'identità, nella conservazione dello sfondo, nel controllo del layout e nel seguire i prompt, tutto ottenuto senza alcun addestramento o fine-tuning, mostrando una forte capacità di generalizzazione zero-shot. Ereditando i punti di forza dei modelli avanzati a singolo riferimento e abilitando un'estensione senza soluzione di continuità a scenari multi-immagine, LAMIC stabilisce un nuovo paradigma privo di addestramento per la composizione controllata di più immagini. Man mano che i modelli di base continuano a evolversi, ci si aspetta che le prestazioni di LAMIC si adeguino di conseguenza. La nostra implementazione è disponibile all'indirizzo: https://github.com/Suchenl/LAMIC.

English

In controllable image synthesis, generating coherent and consistent images from multiple references with spatial layout awareness remains an open challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework that, for the first time, extends single-reference diffusion models to multi-reference scenarios in a training-free manner. Built upon the MMDiT model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group Isolation Attention (GIA) to enhance entity disentanglement; and 2) Region-Modulated Attention (RMA) to enable layout-aware generation. To comprehensively evaluate model capabilities, we further introduce three metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout control; and 2) Background Similarity (BG-S) for measuring background consistency. Extensive experiments show that LAMIC achieves state-of-the-art performance across most major metrics: it consistently outperforms existing multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all settings, and achieves the best DPG in complex composition tasks. These results demonstrate LAMIC's superior abilities in identity keeping, background preservation, layout control, and prompt-following, all achieved without any training or fine-tuning, showcasing strong zero-shot generalization ability. By inheriting the strengths of advanced single-reference models and enabling seamless extension to multi-image scenarios, LAMIC establishes a new training-free paradigm for controllable multi-image composition. As foundation models continue to evolve, LAMIC's performance is expected to scale accordingly. Our implementation is available at: https://github.com/Suchenl/LAMIC.

LAMIC: Composizione Multi-Immagine Consapevole del Layout tramite Scalabilità del Trasformatore di Diffusione Multimodale

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

Abstract

Support