LAMIC: Composición Multiimagen Consciente del Diseño mediante Escalabilidad del Transformador de Difusión Multimodal
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer
August 1, 2025
Autores: Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
cs.AI
Resumen
En la síntesis controlada de imágenes, generar imágenes coherentes y consistentes a partir de múltiples referencias con conciencia del diseño espacial sigue siendo un desafío abierto. Presentamos LAMIC, un marco de Composición Multi-Imagen Consciente del Diseño que, por primera vez, extiende los modelos de difusión de referencia única a escenarios de múltiples referencias de manera libre de entrenamiento. Basado en el modelo MMDiT, LAMIC introduce dos mecanismos de atención plug-and-play: 1) Atención de Aislamiento de Grupo (GIA) para mejorar la separación de entidades; y 2) Atención Modulada por Región (RMA) para permitir la generación consciente del diseño. Para evaluar de manera integral las capacidades del modelo, además introducimos tres métricas: 1) Relación de Inclusión (IN-R) y Relación de Relleno (FI-R) para evaluar el control del diseño; y 2) Similitud de Fondo (BG-S) para medir la consistencia del fondo. Experimentos extensos muestran que LAMIC logra un rendimiento de vanguardia en la mayoría de las métricas principales: supera consistentemente a las líneas base existentes de múltiples referencias en ID-S, BG-S, IN-R y puntajes AVG en todos los escenarios, y alcanza el mejor DPG en tareas de composición compleja. Estos resultados demuestran las habilidades superiores de LAMIC en la preservación de identidad, conservación del fondo, control del diseño y seguimiento de indicaciones, todo logrado sin ningún entrenamiento o ajuste fino, mostrando una fuerte capacidad de generalización zero-shot. Al heredar las fortalezas de los modelos avanzados de referencia única y permitir una extensión sin problemas a escenarios de múltiples imágenes, LAMIC establece un nuevo paradigma libre de entrenamiento para la composición controlada de múltiples imágenes. A medida que los modelos base continúan evolucionando, se espera que el rendimiento de LAMIC escale en consecuencia. Nuestra implementación está disponible en: https://github.com/Suchenl/LAMIC.
English
In controllable image synthesis, generating coherent and consistent images
from multiple references with spatial layout awareness remains an open
challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework
that, for the first time, extends single-reference diffusion models to
multi-reference scenarios in a training-free manner. Built upon the MMDiT
model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group
Isolation Attention (GIA) to enhance entity disentanglement; and 2)
Region-Modulated Attention (RMA) to enable layout-aware generation. To
comprehensively evaluate model capabilities, we further introduce three
metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout
control; and 2) Background Similarity (BG-S) for measuring background
consistency. Extensive experiments show that LAMIC achieves state-of-the-art
performance across most major metrics: it consistently outperforms existing
multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all
settings, and achieves the best DPG in complex composition tasks. These results
demonstrate LAMIC's superior abilities in identity keeping, background
preservation, layout control, and prompt-following, all achieved without any
training or fine-tuning, showcasing strong zero-shot generalization ability. By
inheriting the strengths of advanced single-reference models and enabling
seamless extension to multi-image scenarios, LAMIC establishes a new
training-free paradigm for controllable multi-image composition. As foundation
models continue to evolve, LAMIC's performance is expected to scale
accordingly. Our implementation is available at:
https://github.com/Suchenl/LAMIC.