ContextGen: 다중 인스턴스 생성을 위한 정체성 일관성의 문맥적 레이아웃 고정
ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation
October 13, 2025
저자: Ruihang Xu, Dewei Zhou, Fan Ma, Yi Yang
cs.AI
초록
다중 인스턴스 이미지 생성(MIG)은 객체 레이아웃에 대한 정밀한 제어와 여러 개별 주체의 정체성 유지라는 핵심적인 한계로 인해 현대 디퓨전 모델에게 여전히 중요한 과제로 남아 있습니다. 이러한 한계를 해결하기 위해, 우리는 레이아웃과 참조 이미지로 안내되는 새로운 디퓨전 트랜스포머 프레임워크인 ContextGen을 소개합니다. 우리의 접근 방식은 두 가지 주요 기술적 기여를 통합합니다: 첫째, 복합 레이아웃 이미지를 생성 컨텍스트에 통합하여 객체를 원하는 위치에 견고하게 고정하는 컨텍스트 레이아웃 앵커링(CLA) 메커니즘과, 둘째, 컨텍스트 참조 이미지를 활용하여 여러 인스턴스의 정체성 일관성을 보장하는 혁신적인 주의 메커니즘인 아이덴티티 일관성 주의(ICA)입니다. 이 작업을 위한 대규모 계층적 구조의 데이터셋이 부족함을 인식하여, 우리는 상세한 레이아웃과 정체성 주석이 포함된 최초의 데이터셋인 IMIG-100K를 소개합니다. 광범위한 실험을 통해 ContextGen이 제어 정밀도, 정체성 충실도, 전반적인 시각적 품질에서 기존 방법들을 능가하며 새로운 최첨단 기술을 설정함을 입증합니다.
English
Multi-instance image generation (MIG) remains a significant challenge for
modern diffusion models due to key limitations in achieving precise control
over object layout and preserving the identity of multiple distinct subjects.
To address these limitations, we introduce ContextGen, a novel Diffusion
Transformer framework for multi-instance generation that is guided by both
layout and reference images. Our approach integrates two key technical
contributions: a Contextual Layout Anchoring (CLA) mechanism that incorporates
the composite layout image into the generation context to robustly anchor the
objects in their desired positions, and Identity Consistency Attention (ICA),
an innovative attention mechanism that leverages contextual reference images to
ensure the identity consistency of multiple instances. Recognizing the lack of
large-scale, hierarchically-structured datasets for this task, we introduce
IMIG-100K, the first dataset with detailed layout and identity annotations.
Extensive experiments demonstrate that ContextGen sets a new state-of-the-art,
outperforming existing methods in control precision, identity fidelity, and
overall visual quality.