ChatPaper.aiChatPaper

LAMIC: Layout-Gestuurde Multi-Beeldcompositie via Schaalbaarheid van Multimodale Diffusie Transformers

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

August 1, 2025
Auteurs: Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
cs.AI

Samenvatting

In controleerbare beeldgeneratie blijft het genereren van samenhangende en consistente afbeeldingen vanuit meerdere referenties met bewustzijn van ruimtelijke lay-out een uitdaging. Wij presenteren LAMIC, een Layout-Aware Multi-Image Composition framework dat voor het eerst single-reference diffusiemodellen uitbreidt naar multi-reference scenario's op een trainingsvrije manier. Gebouwd op het MMDiT-model introduceert LAMIC twee plug-and-play aandachtmechanismen: 1) Group Isolation Attention (GIA) om entiteitsontwarring te verbeteren; en 2) Region-Modulated Attention (RMA) om lay-outbewuste generatie mogelijk te maken. Om de modelcapaciteiten uitgebreid te evalueren, introduceren we verder drie metrieken: 1) Inclusion Ratio (IN-R) en Fill Ratio (FI-R) voor het beoordelen van lay-outcontrole; en 2) Background Similarity (BG-S) voor het meten van achtergrondconsistentie. Uitgebreide experimenten tonen aan dat LAMIC state-of-the-art prestaties behaalt op de meeste belangrijke metrieken: het overtreft consistent bestaande multi-reference baselines in ID-S, BG-S, IN-R en AVG-scores in alle instellingen, en behaalt de beste DPG in complexe compositietaken. Deze resultaten demonstreren LAMIC's superieure vermogens in identiteitsbehoud, achtergrondbehoud, lay-outcontrole en prompt-volgen, allemaal bereikt zonder enige training of fine-tuning, wat een sterke zero-shot generalisatiecapaciteit aantoont. Door de sterke punten van geavanceerde single-reference modellen te erven en naadloze uitbreiding naar multi-image scenario's mogelijk te maken, vestigt LAMIC een nieuw trainingsvrij paradigma voor controleerbare multi-image compositie. Naarmate foundationmodellen zich blijven ontwikkelen, wordt verwacht dat LAMIC's prestaties dienovereenkomstig zullen schalen. Onze implementatie is beschikbaar op: https://github.com/Suchenl/LAMIC.
English
In controllable image synthesis, generating coherent and consistent images from multiple references with spatial layout awareness remains an open challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework that, for the first time, extends single-reference diffusion models to multi-reference scenarios in a training-free manner. Built upon the MMDiT model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group Isolation Attention (GIA) to enhance entity disentanglement; and 2) Region-Modulated Attention (RMA) to enable layout-aware generation. To comprehensively evaluate model capabilities, we further introduce three metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout control; and 2) Background Similarity (BG-S) for measuring background consistency. Extensive experiments show that LAMIC achieves state-of-the-art performance across most major metrics: it consistently outperforms existing multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all settings, and achieves the best DPG in complex composition tasks. These results demonstrate LAMIC's superior abilities in identity keeping, background preservation, layout control, and prompt-following, all achieved without any training or fine-tuning, showcasing strong zero-shot generalization ability. By inheriting the strengths of advanced single-reference models and enabling seamless extension to multi-image scenarios, LAMIC establishes a new training-free paradigm for controllable multi-image composition. As foundation models continue to evolve, LAMIC's performance is expected to scale accordingly. Our implementation is available at: https://github.com/Suchenl/LAMIC.
PDF62August 6, 2025