ChatPaper.aiChatPaper

ContextGen: アイデンティティ一貫性を保つためのコンテキストレイアウトアンカリングによるマルチインスタンス生成

ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation

October 13, 2025
著者: Ruihang Xu, Dewei Zhou, Fan Ma, Yi Yang
cs.AI

要旨

マルチインスタンス画像生成(MIG)は、オブジェクトのレイアウトを正確に制御し、複数の異なる対象の同一性を維持する上での主要な制約により、現代の拡散モデルにとって依然として重要な課題である。これらの制約に対処するため、我々はレイアウトと参照画像の両方に基づいてガイドされる新しいDiffusion TransformerフレームワークであるContextGenを提案する。本アプローチは、2つの重要な技術的貢献を統合している。1つ目は、生成コンテキストに複合レイアウト画像を組み込み、オブジェクトを所望の位置に確実に固定するContextual Layout Anchoring(CLA)メカニズムであり、2つ目は、複数のインスタンスの同一性を保証するためにコンテキスト参照画像を活用する革新的なアテンションメカニズムであるIdentity Consistency Attention(ICA)である。このタスクのための大規模で階層的に構造化されたデータセットの不足を認識し、我々は詳細なレイアウトと同一性アノテーションを備えた初のデータセットであるIMIG-100Kを導入する。広範な実験により、ContextGenが制御精度、同一性の忠実度、および全体的な視覚的品質において既存の手法を上回り、新たな最先端を確立することが実証された。
English
Multi-instance image generation (MIG) remains a significant challenge for modern diffusion models due to key limitations in achieving precise control over object layout and preserving the identity of multiple distinct subjects. To address these limitations, we introduce ContextGen, a novel Diffusion Transformer framework for multi-instance generation that is guided by both layout and reference images. Our approach integrates two key technical contributions: a Contextual Layout Anchoring (CLA) mechanism that incorporates the composite layout image into the generation context to robustly anchor the objects in their desired positions, and Identity Consistency Attention (ICA), an innovative attention mechanism that leverages contextual reference images to ensure the identity consistency of multiple instances. Recognizing the lack of large-scale, hierarchically-structured datasets for this task, we introduce IMIG-100K, the first dataset with detailed layout and identity annotations. Extensive experiments demonstrate that ContextGen sets a new state-of-the-art, outperforming existing methods in control precision, identity fidelity, and overall visual quality.
PDF82October 15, 2025