ChatPaper.aiChatPaper

LAMIC: Composición Multiimagen Consciente del Diseño mediante Escalabilidad del Transformador de Difusión Multimodal

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

August 1, 2025
Autores: Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
cs.AI

Resumen

En la síntesis controlada de imágenes, generar imágenes coherentes y consistentes a partir de múltiples referencias con conciencia del diseño espacial sigue siendo un desafío abierto. Presentamos LAMIC, un marco de Composición Multi-Imagen Consciente del Diseño que, por primera vez, extiende los modelos de difusión de referencia única a escenarios de múltiples referencias de manera libre de entrenamiento. Basado en el modelo MMDiT, LAMIC introduce dos mecanismos de atención plug-and-play: 1) Atención de Aislamiento de Grupo (GIA) para mejorar la separación de entidades; y 2) Atención Modulada por Región (RMA) para permitir la generación consciente del diseño. Para evaluar de manera integral las capacidades del modelo, además introducimos tres métricas: 1) Relación de Inclusión (IN-R) y Relación de Relleno (FI-R) para evaluar el control del diseño; y 2) Similitud de Fondo (BG-S) para medir la consistencia del fondo. Experimentos extensos muestran que LAMIC logra un rendimiento de vanguardia en la mayoría de las métricas principales: supera consistentemente a las líneas base existentes de múltiples referencias en ID-S, BG-S, IN-R y puntajes AVG en todos los escenarios, y alcanza el mejor DPG en tareas de composición compleja. Estos resultados demuestran las habilidades superiores de LAMIC en la preservación de identidad, conservación del fondo, control del diseño y seguimiento de indicaciones, todo logrado sin ningún entrenamiento o ajuste fino, mostrando una fuerte capacidad de generalización zero-shot. Al heredar las fortalezas de los modelos avanzados de referencia única y permitir una extensión sin problemas a escenarios de múltiples imágenes, LAMIC establece un nuevo paradigma libre de entrenamiento para la composición controlada de múltiples imágenes. A medida que los modelos base continúan evolucionando, se espera que el rendimiento de LAMIC escale en consecuencia. Nuestra implementación está disponible en: https://github.com/Suchenl/LAMIC.
English
In controllable image synthesis, generating coherent and consistent images from multiple references with spatial layout awareness remains an open challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework that, for the first time, extends single-reference diffusion models to multi-reference scenarios in a training-free manner. Built upon the MMDiT model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group Isolation Attention (GIA) to enhance entity disentanglement; and 2) Region-Modulated Attention (RMA) to enable layout-aware generation. To comprehensively evaluate model capabilities, we further introduce three metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout control; and 2) Background Similarity (BG-S) for measuring background consistency. Extensive experiments show that LAMIC achieves state-of-the-art performance across most major metrics: it consistently outperforms existing multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all settings, and achieves the best DPG in complex composition tasks. These results demonstrate LAMIC's superior abilities in identity keeping, background preservation, layout control, and prompt-following, all achieved without any training or fine-tuning, showcasing strong zero-shot generalization ability. By inheriting the strengths of advanced single-reference models and enabling seamless extension to multi-image scenarios, LAMIC establishes a new training-free paradigm for controllable multi-image composition. As foundation models continue to evolve, LAMIC's performance is expected to scale accordingly. Our implementation is available at: https://github.com/Suchenl/LAMIC.
PDF62August 6, 2025