ContextGen: Contextuele Lay-outverankering voor Identiteitsconsistente Multi-Instantie Generatie
ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation
October 13, 2025
Auteurs: Ruihang Xu, Dewei Zhou, Fan Ma, Yi Yang
cs.AI
Samenvatting
Multi-instance image generation (MIG) blijft een belangrijke uitdaging voor moderne diffusiemodellen vanwege essentiële beperkingen in het bereiken van precieze controle over objectlay-out en het behouden van de identiteit van meerdere afzonderlijke onderwerpen. Om deze beperkingen aan te pakken, introduceren we ContextGen, een nieuw Diffusion Transformer-framework voor multi-instance generatie dat wordt geleid door zowel lay-out- als referentiebeelden. Onze aanpak integreert twee belangrijke technische bijdragen: een Contextual Layout Anchoring (CLA)-mechanisme dat het samengestelde lay-outbeeld opneemt in de generatiecontext om de objecten robuust te verankeren in hun gewenste posities, en Identity Consistency Attention (ICA), een innovatief aandachtmechanisme dat gebruikmaakt van contextuele referentiebeelden om de identiteitsconsistentie van meerdere instanties te waarborgen. Gezien het gebrek aan grootschalige, hiërarchisch gestructureerde datasets voor deze taak, introduceren we IMIG-100K, de eerste dataset met gedetailleerde lay-out- en identiteitsannotaties. Uitgebreide experimenten tonen aan dat ContextGen een nieuwe state-of-the-art neerzet, waarbij bestaande methoden worden overtroffen op het gebied van controleprecisie, identiteitsgetrouwheid en algehele visuele kwaliteit.
English
Multi-instance image generation (MIG) remains a significant challenge for
modern diffusion models due to key limitations in achieving precise control
over object layout and preserving the identity of multiple distinct subjects.
To address these limitations, we introduce ContextGen, a novel Diffusion
Transformer framework for multi-instance generation that is guided by both
layout and reference images. Our approach integrates two key technical
contributions: a Contextual Layout Anchoring (CLA) mechanism that incorporates
the composite layout image into the generation context to robustly anchor the
objects in their desired positions, and Identity Consistency Attention (ICA),
an innovative attention mechanism that leverages contextual reference images to
ensure the identity consistency of multiple instances. Recognizing the lack of
large-scale, hierarchically-structured datasets for this task, we introduce
IMIG-100K, the first dataset with detailed layout and identity annotations.
Extensive experiments demonstrate that ContextGen sets a new state-of-the-art,
outperforming existing methods in control precision, identity fidelity, and
overall visual quality.