OcclusionFormer: Ordenen van Z-order voor layout-gebonden beeldgeneratie

Samenvatting

Recente layout-naar-beeld modellen hebben opmerkelijke vooruitgang geboekt op het gebied van ruimtelijke beheersbaarheid. Desondanks hebben ze nog steeds moeite met occlusie tussen objecten. Wanneer begrenzingskaders overlappen, ontbreekt het bij de meeste bestaande methoden aan expliciete occlusie-informatie, wat de generatie in overlappingen inherent ambigu maakt en de bepaling van complexe occlusierelaties hindert. Hierdoor produceren ze vaak verwarde texturen of fysiek inconsistente lagen in de overlappende gebieden. Om dit probleem aan te pakken, construeren we eerst SA-Z, een grootschalige dataset verrijkt met expliciete occlusievolgorde en pixel-niveau annotaties. Voortbouwend op onze voorgestelde dataset introduceren we OcclusionFormer, een nieuw occlusiebewust diffusie-transformer raamwerk dat expliciet Z-volgorde prioriteit modelleert door instanties te ontkoppelen en ze samen te stellen via volumerendering. Bovendien introduceren we, om fijnmazige ruimtelijke precisie te waarborgen, een query-uitlijningsverlies dat individuele instanties expliciet superviseert en de semantische consistentie verbetert. De voorgestelde methode vermindert effectief de ambiguïteit in overlappende regio's, handhaaft correcte occlusieafhankelijkheden en behoudt structurele integriteit, wat leidt tot substantiële nauwkeurigheidswinsten in diverse scènes.

English

Recent layout-to-image models have achieved remarkable progress in spatial controllability. However, they still struggle with inter-object occlusion. When bounding boxes overlap, most existing methods lack explicit occlusion information, which makes the generation in intersection regions inherently ambiguous and hinders the determination of complex occlusion relationships. As a result, they often produce entangled textures or physically inconsistent layering in the overlapped areas. To address this issue, we first construct SA-Z, a large-scale dataset enriched with explicit occlusion ordering and pixel-level annotations. Building upon our proposed dataset, we introduce OcclusionFormer, a novel occlusion-aware Diffusion Transformer framework that explicitly models Z-order priority by decoupling instances and compositing them via volume rendering. Furthermore, to ensure fine-grained spatial precision, we introduce a queried alignment loss that explicitly supervises individual instances and enhances semantic consistency. The proposed method effectively reduces ambiguity in overlapping regions, enforces correct occlusion dependencies, and preserves structural integrity, leading to substantial accuracy gains across diverse scenes.