ChatPaper.aiChatPaper

LAMIC: Layout-bewusste Multi-Bild-Komposition durch Skalierbarkeit des Multimodalen Diffusions-Transformers

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

August 1, 2025
papers.authors: Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
cs.AI

papers.abstract

Bei der kontrollierbaren Bildsynthese bleibt die Erzeugung kohärenter und konsistenter Bilder aus mehreren Referenzen mit räumlichem Layoutbewusstsein eine offene Herausforderung. Wir präsentieren LAMIC, ein Layout-Aware Multi-Image Composition Framework, das erstmals Einzelreferenz-Diffusionsmodelle auf Mehrfachreferenzszenarien in einem trainingsfreien Ansatz erweitert. Basierend auf dem MMDiT-Modell führt LAMIC zwei Plug-and-Play-Aufmerksamkeitsmechanismen ein: 1) Group Isolation Attention (GIA), um die Entflechtung von Entitäten zu verbessern; und 2) Region-Modulated Attention (RMA), um eine layoutbewusste Generierung zu ermöglichen. Um die Modellfähigkeiten umfassend zu bewerten, führen wir drei Metriken ein: 1) Inclusion Ratio (IN-R) und Fill Ratio (FI-R) zur Bewertung der Layoutkontrolle; und 2) Background Similarity (BG-S) zur Messung der Hintergrundkonsistenz. Umfangreiche Experimente zeigen, dass LAMIC in den meisten wichtigen Metriken state-of-the-art Leistungen erzielt: Es übertrifft bestehende Mehrfachreferenz-Baselines konsistent in den ID-S-, BG-S-, IN-R- und AVG-Werten in allen Szenarien und erreicht den besten DPG in komplexen Kompositionsaufgaben. Diese Ergebnisse demonstrieren die überlegenen Fähigkeiten von LAMIC in Bezug auf Identitätserhaltung, Hintergrundbewahrung, Layoutkontrolle und Prompt-Befolgung, alles ohne jegliches Training oder Feinabstimmung, was eine starke Zero-Shot-Generalisierungsfähigkeit zeigt. Durch die Übernahme der Stärken fortschrittlicher Einzelreferenzmodelle und die nahtlose Erweiterung auf Mehrbildszenarien etabliert LAMIC ein neues trainingsfreies Paradigma für die kontrollierbare Mehrbildkomposition. Da sich Basismodelle weiterentwickeln, wird erwartet, dass die Leistung von LAMIC entsprechend skaliert. Unsere Implementierung ist verfügbar unter: https://github.com/Suchenl/LAMIC.
English
In controllable image synthesis, generating coherent and consistent images from multiple references with spatial layout awareness remains an open challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework that, for the first time, extends single-reference diffusion models to multi-reference scenarios in a training-free manner. Built upon the MMDiT model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group Isolation Attention (GIA) to enhance entity disentanglement; and 2) Region-Modulated Attention (RMA) to enable layout-aware generation. To comprehensively evaluate model capabilities, we further introduce three metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout control; and 2) Background Similarity (BG-S) for measuring background consistency. Extensive experiments show that LAMIC achieves state-of-the-art performance across most major metrics: it consistently outperforms existing multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all settings, and achieves the best DPG in complex composition tasks. These results demonstrate LAMIC's superior abilities in identity keeping, background preservation, layout control, and prompt-following, all achieved without any training or fine-tuning, showcasing strong zero-shot generalization ability. By inheriting the strengths of advanced single-reference models and enabling seamless extension to multi-image scenarios, LAMIC establishes a new training-free paradigm for controllable multi-image composition. As foundation models continue to evolve, LAMIC's performance is expected to scale accordingly. Our implementation is available at: https://github.com/Suchenl/LAMIC.
PDF62August 6, 2025