OcclusionFormer : Ordonnancement de l'ordre Z pour la génération d'images guidée par le layout

Résumé

Les récents modèles de mise en page à image ont réalisé des progrès remarquables en matière de contrôlabilité spatiale. Cependant, ils peinent toujours face à l'occlusion inter-objets. Lorsque les boîtes englobantes se chevauchent, la plupart des méthodes existantes manquent d'informations explicites sur l'occlusion, ce qui rend la génération dans les zones d'intersection intrinsèquement ambiguë et entrave la détermination de relations d'occlusion complexes. Par conséquent, elles produisent souvent des textures entremêlées ou un empilement physiquement incohérent dans les régions superposées. Pour résoudre ce problème, nous construisons d'abord SA-Z, un jeu de données à grande échelle enrichi d'un ordre d'occlusion explicite et d'annotations au niveau pixel. En nous appuyant sur ce jeu de données proposé, nous introduisons OcclusionFormer, un nouveau cadre de transformateur de diffusion conscient de l'occlusion qui modélise explicitement la priorité d'ordre Z en découplant les instances et en les composant via un rendu volumique. De plus, pour garantir une précision spatiale fine, nous introduisons une perte d'alignement interrogée qui supervise explicitement les instances individuelles et renforce la cohérence sémantique. La méthode proposée réduit efficacement l'ambiguïté dans les régions superposées, impose des dépendances d'occlusion correctes et préserve l'intégrité structurelle, ce qui conduit à des gains substantiels en précision dans divers scénarios.

English

Recent layout-to-image models have achieved remarkable progress in spatial controllability. However, they still struggle with inter-object occlusion. When bounding boxes overlap, most existing methods lack explicit occlusion information, which makes the generation in intersection regions inherently ambiguous and hinders the determination of complex occlusion relationships. As a result, they often produce entangled textures or physically inconsistent layering in the overlapped areas. To address this issue, we first construct SA-Z, a large-scale dataset enriched with explicit occlusion ordering and pixel-level annotations. Building upon our proposed dataset, we introduce OcclusionFormer, a novel occlusion-aware Diffusion Transformer framework that explicitly models Z-order priority by decoupling instances and compositing them via volume rendering. Furthermore, to ensure fine-grained spatial precision, we introduce a queried alignment loss that explicitly supervises individual instances and enhances semantic consistency. The proposed method effectively reduces ambiguity in overlapping regions, enforces correct occlusion dependencies, and preserves structural integrity, leading to substantial accuracy gains across diverse scenes.