OcclusionFormer: Organizando el orden Z para la generación de imágenes basada en diseño

Resumen

Los recientes modelos de diseño a imagen han logrado un progreso notable en la controlabilidad espacial. Sin embargo, todavía presentan dificultades con la oclusión entre objetos. Cuando las cajas delimitadoras se superponen, la mayoría de los métodos existentes carecen de información explícita de oclusión, lo que hace que la generación en las regiones de intersección sea inherentemente ambigua y dificulta la determinación de relaciones de oclusión complejas. Como resultado, a menudo producen texturas enredadas o capas físicamente inconsistentes en las áreas superpuestas. Para abordar este problema, primero construimos SA-Z, un conjunto de datos a gran escala enriquecido con orden de oclusión explícito y anotaciones a nivel de píxel. Sobre la base de nuestro conjunto de datos propuesto, presentamos OcclusionFormer, un novedoso marco de Transformador de Difusión consciente de la oclusión que modela explícitamente la prioridad de orden Z mediante la desacoplación de instancias y su composición a través del renderizado volumétrico. Además, para garantizar una precisión espacial detallada, introducimos una pérdida de alineación consultada que supervisa explícitamente instancias individuales y mejora la consistencia semántica. El método propuesto reduce efectivamente la ambigüedad en las regiones superpuestas, impone dependencias de oclusión correctas y preserva la integridad estructural, lo que conduce a ganancias sustanciales de precisión en diversas escenas.

English

Recent layout-to-image models have achieved remarkable progress in spatial controllability. However, they still struggle with inter-object occlusion. When bounding boxes overlap, most existing methods lack explicit occlusion information, which makes the generation in intersection regions inherently ambiguous and hinders the determination of complex occlusion relationships. As a result, they often produce entangled textures or physically inconsistent layering in the overlapped areas. To address this issue, we first construct SA-Z, a large-scale dataset enriched with explicit occlusion ordering and pixel-level annotations. Building upon our proposed dataset, we introduce OcclusionFormer, a novel occlusion-aware Diffusion Transformer framework that explicitly models Z-order priority by decoupling instances and compositing them via volume rendering. Furthermore, to ensure fine-grained spatial precision, we introduce a queried alignment loss that explicitly supervises individual instances and enhances semantic consistency. The proposed method effectively reduces ambiguity in overlapping regions, enforces correct occlusion dependencies, and preserves structural integrity, leading to substantial accuracy gains across diverse scenes.