OcclusionFormer: Anordnen der Z-Reihenfolge für layoutbasierte Bildgenerierung

Zusammenfassung

Aktuelle Layout-zu-Bild-Modelle haben bemerkenswerte Fortschritte in der räumlichen Steuerbarkeit erzielt. Dennoch haben sie weiterhin Schwierigkeiten mit der Objektverschattung (inter-object occlusion). Wenn sich Begrenzungsrahmen überlappen, fehlt den meisten bestehenden Methoden explizite Okklusionsinformationen, was die Generierung in Überschneidungsbereichen inhärent mehrdeutig macht und die Bestimmung komplexer Okklusionsbeziehungen erschwert. Infolgedessen erzeugen sie in den überlappenden Bereichen oft verworrene Texturen oder physikalisch inkonsistente Schichtungen. Um dieses Problem zu lösen, konstruieren wir zunächst SA-Z, einen umfangreichen Datensatz, der mit expliziter Okklusionsreihenfolge und pixelgenauen Annotationen angereichert ist. Aufbauend auf unserem vorgeschlagenen Datensatz führen wir OcclusionFormer ein, ein neuartiges Okklusions-bewusstes Diffusion-Transformer-Framework, das die Z-Reihenfolge-Priorität explizit modelliert, indem es Instanzen entkoppelt und sie mittels Volumenrendering zusammensetzt. Darüber hinaus führen wir zur Gewährleistung feinkörniger räumlicher Präzision einen Query-basierten Ausrichtungsverlust (queried alignment loss) ein, der einzelne Instanzen explizit überwacht und die semantische Konsistenz verbessert. Die vorgeschlagene Methode reduziert effektiv die Mehrdeutigkeit in überlappenden Regionen, erzwingt korrekte Okklusionsabhängigkeiten und bewahrt die strukturelle Integrität, was zu erheblichen Genauigkeitssteigerungen in verschiedenen Szenen führt.

English

Recent layout-to-image models have achieved remarkable progress in spatial controllability. However, they still struggle with inter-object occlusion. When bounding boxes overlap, most existing methods lack explicit occlusion information, which makes the generation in intersection regions inherently ambiguous and hinders the determination of complex occlusion relationships. As a result, they often produce entangled textures or physically inconsistent layering in the overlapped areas. To address this issue, we first construct SA-Z, a large-scale dataset enriched with explicit occlusion ordering and pixel-level annotations. Building upon our proposed dataset, we introduce OcclusionFormer, a novel occlusion-aware Diffusion Transformer framework that explicitly models Z-order priority by decoupling instances and compositing them via volume rendering. Furthermore, to ensure fine-grained spatial precision, we introduce a queried alignment loss that explicitly supervises individual instances and enhances semantic consistency. The proposed method effectively reduces ambiguity in overlapping regions, enforces correct occlusion dependencies, and preserves structural integrity, leading to substantial accuracy gains across diverse scenes.