OcclusionFormer: Organizando a Ordem Z para Geração de Imagens Baseada em Layout

Resumo

Modelos recentes de layout para imagem alcançaram progressos notáveis em controlabilidade espacial. No entanto, ainda enfrentam dificuldades com a oclusão entre objetos. Quando as caixas delimitadoras se sobrepõem, a maioria dos métodos existentes carece de informações explícitas de oclusão, o que torna a geração nas regiões de interseção inerentemente ambígua e dificulta a determinação de relações complexas de oclusão. Como resultado, eles frequentemente produzem texturas emaranhadas ou camadas fisicamente inconsistentes nas áreas sobrepostas. Para resolver esse problema, primeiro construímos o SA-Z, um conjunto de dados em larga escala enriquecido com ordenação explícita de oclusão e anotações em nível de pixel. Com base no conjunto de dados proposto, introduzimos o OcclusionFormer, uma nova estrutura de Transformador de Difusão ciente de oclusão que modela explicitamente a prioridade de ordem Z ao desacoplar instâncias e compô-las via renderização de volume. Além disso, para garantir precisão espacial refinada, introduzimos uma perda de alinhamento consultada que supervisiona explicitamente instâncias individuais e melhora a consistência semântica. O método proposto reduz efetivamente a ambiguidade em regiões sobrepostas, impõe dependências corretas de oclusão e preserva a integridade estrutural, resultando em ganhos substanciais de precisão em diversas cenas.

English

Recent layout-to-image models have achieved remarkable progress in spatial controllability. However, they still struggle with inter-object occlusion. When bounding boxes overlap, most existing methods lack explicit occlusion information, which makes the generation in intersection regions inherently ambiguous and hinders the determination of complex occlusion relationships. As a result, they often produce entangled textures or physically inconsistent layering in the overlapped areas. To address this issue, we first construct SA-Z, a large-scale dataset enriched with explicit occlusion ordering and pixel-level annotations. Building upon our proposed dataset, we introduce OcclusionFormer, a novel occlusion-aware Diffusion Transformer framework that explicitly models Z-order priority by decoupling instances and compositing them via volume rendering. Furthermore, to ensure fine-grained spatial precision, we introduce a queried alignment loss that explicitly supervises individual instances and enhances semantic consistency. The proposed method effectively reduces ambiguity in overlapping regions, enforces correct occlusion dependencies, and preserves structural integrity, leading to substantial accuracy gains across diverse scenes.