ChatPaper.aiChatPaper

ContextGen : Ancrage contextuel de mise en page pour une génération multi-instance cohérente en termes d'identité

ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation

October 13, 2025
papers.authors: Ruihang Xu, Dewei Zhou, Fan Ma, Yi Yang
cs.AI

papers.abstract

La génération d'images multi-instances (MIG) reste un défi majeur pour les modèles de diffusion modernes en raison de limitations clés dans la réalisation d'un contrôle précis sur la disposition des objets et la préservation de l'identité de plusieurs sujets distincts. Pour répondre à ces limitations, nous introduisons ContextGen, un nouveau cadre de Diffusion Transformer pour la génération multi-instances guidée à la fois par la disposition et les images de référence. Notre approche intègre deux contributions techniques majeures : un mécanisme d'Ancrage Contextuel de Disposition (CLA) qui incorpore l'image de disposition composite dans le contexte de génération pour ancrer robustement les objets dans leurs positions souhaitées, et une Attention de Cohérence d'Identité (ICA), un mécanisme d'attention innovant qui exploite les images de référence contextuelles pour garantir la cohérence d'identité de plusieurs instances. Conscients du manque de jeux de données à grande échelle et structurés hiérarchiquement pour cette tâche, nous introduisons IMIG-100K, le premier jeu de données avec des annotations détaillées de disposition et d'identité. Des expériences approfondies démontrent que ContextGen établit un nouvel état de l'art, surpassant les méthodes existantes en termes de précision de contrôle, de fidélité d'identité et de qualité visuelle globale.
English
Multi-instance image generation (MIG) remains a significant challenge for modern diffusion models due to key limitations in achieving precise control over object layout and preserving the identity of multiple distinct subjects. To address these limitations, we introduce ContextGen, a novel Diffusion Transformer framework for multi-instance generation that is guided by both layout and reference images. Our approach integrates two key technical contributions: a Contextual Layout Anchoring (CLA) mechanism that incorporates the composite layout image into the generation context to robustly anchor the objects in their desired positions, and Identity Consistency Attention (ICA), an innovative attention mechanism that leverages contextual reference images to ensure the identity consistency of multiple instances. Recognizing the lack of large-scale, hierarchically-structured datasets for this task, we introduce IMIG-100K, the first dataset with detailed layout and identity annotations. Extensive experiments demonstrate that ContextGen sets a new state-of-the-art, outperforming existing methods in control precision, identity fidelity, and overall visual quality.
PDF82October 15, 2025