ChatPaper.aiChatPaper

ContextGen: Ancoragem Contextual de Layout para Geração Multi-Instância com Identidade Consistente

ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation

October 13, 2025
Autores: Ruihang Xu, Dewei Zhou, Fan Ma, Yi Yang
cs.AI

Resumo

A geração de imagens com múltiplas instâncias (MIG) continua sendo um desafio significativo para os modelos de difusão modernos devido a limitações cruciais no controle preciso do layout dos objetos e na preservação da identidade de múltiplos sujeitos distintos. Para abordar essas limitações, apresentamos o ContextGen, uma nova estrutura de Transformers de Difusão para geração de múltiplas instâncias que é guiada tanto por layout quanto por imagens de referência. Nossa abordagem integra duas contribuições técnicas principais: um mecanismo de Ancoragem de Layout Contextual (CLA) que incorpora a imagem de layout composto no contexto de geração para ancorar robustamente os objetos em suas posições desejadas, e a Atenção de Consistência de Identidade (ICA), um mecanismo de atenção inovador que utiliza imagens de referência contextuais para garantir a consistência da identidade de múltiplas instâncias. Reconhecendo a falta de conjuntos de dados em larga escala e hierarquicamente estruturados para essa tarefa, introduzimos o IMIG-100K, o primeiro conjunto de dados com anotações detalhadas de layout e identidade. Experimentos extensivos demonstram que o ContextGen estabelece um novo estado da arte, superando os métodos existentes em precisão de controle, fidelidade de identidade e qualidade visual geral.
English
Multi-instance image generation (MIG) remains a significant challenge for modern diffusion models due to key limitations in achieving precise control over object layout and preserving the identity of multiple distinct subjects. To address these limitations, we introduce ContextGen, a novel Diffusion Transformer framework for multi-instance generation that is guided by both layout and reference images. Our approach integrates two key technical contributions: a Contextual Layout Anchoring (CLA) mechanism that incorporates the composite layout image into the generation context to robustly anchor the objects in their desired positions, and Identity Consistency Attention (ICA), an innovative attention mechanism that leverages contextual reference images to ensure the identity consistency of multiple instances. Recognizing the lack of large-scale, hierarchically-structured datasets for this task, we introduce IMIG-100K, the first dataset with detailed layout and identity annotations. Extensive experiments demonstrate that ContextGen sets a new state-of-the-art, outperforming existing methods in control precision, identity fidelity, and overall visual quality.
PDF82October 15, 2025