ChatPaper.aiChatPaper

LAMIC : Composition multi-images sensible à la mise en page via l'évolutivité du transformeur de diffusion multimodale

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

August 1, 2025
papers.authors: Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
cs.AI

papers.abstract

Dans la synthèse d'images contrôlée, la génération d'images cohérentes et consistantes à partir de multiples références avec une conscience de la disposition spatiale reste un défi ouvert. Nous présentons LAMIC, un cadre de composition multi-images conscient de la disposition (Layout-Aware Multi-Image Composition) qui, pour la première fois, étend les modèles de diffusion à référence unique aux scénarios multi-références sans nécessiter d'entraînement. Basé sur le modèle MMDiT, LAMIC introduit deux mécanismes d'attention plug-and-play : 1) l'Attention par Isolation de Groupe (Group Isolation Attention, GIA) pour améliorer la séparation des entités ; et 2) l'Attention Modulée par Région (Region-Modulated Attention, RMA) pour permettre une génération consciente de la disposition. Pour évaluer de manière exhaustive les capacités du modèle, nous introduisons également trois métriques : 1) le Taux d'Inclusion (Inclusion Ratio, IN-R) et le Taux de Remplissage (Fill Ratio, FI-R) pour évaluer le contrôle de la disposition ; et 2) la Similarité de Fond (Background Similarity, BG-S) pour mesurer la cohérence du fond. Des expériences approfondies montrent que LAMIC atteint des performances de pointe sur la plupart des métriques principales : il surpasse systématiquement les références multi-images existantes en termes de ID-S, BG-S, IN-R et scores AVG dans tous les paramètres, et obtient le meilleur DPG dans les tâches de composition complexes. Ces résultats démontrent les capacités supérieures de LAMIC en matière de préservation de l'identité, de conservation du fond, de contrôle de la disposition et de suivi des instructions, le tout sans aucun entraînement ou ajustement, mettant en avant une forte capacité de généralisation en mode zéro-shot. En héritant des forces des modèles avancés à référence unique et en permettant une extension fluide aux scénarios multi-images, LAMIC établit un nouveau paradigme sans entraînement pour la composition multi-images contrôlée. À mesure que les modèles de base continuent d'évoluer, les performances de LAMIC devraient s'améliorer en conséquence. Notre implémentation est disponible à l'adresse suivante : https://github.com/Suchenl/LAMIC.
English
In controllable image synthesis, generating coherent and consistent images from multiple references with spatial layout awareness remains an open challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework that, for the first time, extends single-reference diffusion models to multi-reference scenarios in a training-free manner. Built upon the MMDiT model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group Isolation Attention (GIA) to enhance entity disentanglement; and 2) Region-Modulated Attention (RMA) to enable layout-aware generation. To comprehensively evaluate model capabilities, we further introduce three metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout control; and 2) Background Similarity (BG-S) for measuring background consistency. Extensive experiments show that LAMIC achieves state-of-the-art performance across most major metrics: it consistently outperforms existing multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all settings, and achieves the best DPG in complex composition tasks. These results demonstrate LAMIC's superior abilities in identity keeping, background preservation, layout control, and prompt-following, all achieved without any training or fine-tuning, showcasing strong zero-shot generalization ability. By inheriting the strengths of advanced single-reference models and enabling seamless extension to multi-image scenarios, LAMIC establishes a new training-free paradigm for controllable multi-image composition. As foundation models continue to evolve, LAMIC's performance is expected to scale accordingly. Our implementation is available at: https://github.com/Suchenl/LAMIC.
PDF62August 6, 2025