LAMIC:マルチモーダル拡散トランスフォーマーのスケーラビリティによるレイアウト対応マルチイメージ合成
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer
August 1, 2025
著者: Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
cs.AI
要旨
制御可能な画像合成において、空間的レイアウトを意識した複数の参照画像から一貫性のある画像を生成することは、依然として未解決の課題である。本論文では、LAMIC(Layout-Aware Multi-Image Composition)フレームワークを提案する。LAMICは、初めて単一参照の拡散モデルをトレーニング不要な形で複数参照シナリオに拡張するものである。MMDiTモデルを基盤として、LAMICは2つのプラグアンドプレイ型の注意機構を導入している:1)エンティティの分離を強化するためのグループ分離注意(Group Isolation Attention, GIA)、および2)レイアウトを意識した生成を可能にする領域変調注意(Region-Modulated Attention, RMA)である。モデルの能力を包括的に評価するため、さらに3つの指標を導入した:1)レイアウト制御を評価するための包含率(Inclusion Ratio, IN-R)と充填率(Fill Ratio, FI-R)、および2)背景の一貫性を測定するための背景類似度(Background Similarity, BG-S)である。大規模な実験により、LAMICは主要な指標のほとんどで最先端の性能を達成することが示された:すべての設定において、既存の複数参照ベースラインをID-S、BG-S、IN-R、およびAVGスコアで一貫して上回り、複雑な合成タスクでは最高のDPGを達成した。これらの結果は、LAMICがトレーニングやファインチューニングを一切行わずに、アイデンティティの保持、背景の保存、レイアウト制御、およびプロンプト追従において優れた能力を発揮することを示しており、強力なゼロショット汎化能力を実証している。先進的な単一参照モデルの強みを継承し、複数画像シナリオへのシームレスな拡張を可能にすることで、LAMICは制御可能な複数画像合成のための新しいトレーニング不要なパラダイムを確立した。基盤モデルの進化に伴い、LAMICの性能もそれに応じてスケールすることが期待される。実装はhttps://github.com/Suchenl/LAMICで公開されている。
English
In controllable image synthesis, generating coherent and consistent images
from multiple references with spatial layout awareness remains an open
challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework
that, for the first time, extends single-reference diffusion models to
multi-reference scenarios in a training-free manner. Built upon the MMDiT
model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group
Isolation Attention (GIA) to enhance entity disentanglement; and 2)
Region-Modulated Attention (RMA) to enable layout-aware generation. To
comprehensively evaluate model capabilities, we further introduce three
metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout
control; and 2) Background Similarity (BG-S) for measuring background
consistency. Extensive experiments show that LAMIC achieves state-of-the-art
performance across most major metrics: it consistently outperforms existing
multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all
settings, and achieves the best DPG in complex composition tasks. These results
demonstrate LAMIC's superior abilities in identity keeping, background
preservation, layout control, and prompt-following, all achieved without any
training or fine-tuning, showcasing strong zero-shot generalization ability. By
inheriting the strengths of advanced single-reference models and enabling
seamless extension to multi-image scenarios, LAMIC establishes a new
training-free paradigm for controllable multi-image composition. As foundation
models continue to evolve, LAMIC's performance is expected to scale
accordingly. Our implementation is available at:
https://github.com/Suchenl/LAMIC.