OcclusionFormer: упорядочивание Z-порядка для генерации изображений на основе компоновки

Аннотация

Последние модели преобразования компоновки в изображение достигли значительного прогресса в области пространственной управляемости. Однако они по-прежнему испытывают трудности с взаимным перекрытием объектов. При наложении ограничивающих рамок большинство существующих методов не содержат явной информации о перекрытии, что делает генерацию в областях пересечения принципиально неоднозначной и затрудняет определение сложных отношений перекрытия. В результате в перекрывающихся областях часто возникают переплетённые текстуры или физически непоследовательные наслоения. Для решения этой проблемы мы сначала создаём SA-Z — крупномасштабный набор данных, обогащённый явным порядком перекрытия и попиксельными аннотациями. Основываясь на предложенном наборе данных, мы представляем OcclusionFormer — новую структуру на основе диффузионного трансформера с учётом перекрытия, которая явно моделирует Z-приоритет путём разделения экземпляров и их компоновки с помощью объёмного рендеринга. Кроме того, для обеспечения точной пространственной детализации мы вводим функцию потерь выравнивания с запросом, которая явно контролирует отдельные экземпляры и улучшает семантическую согласованность. Предложенный метод эффективно снижает неоднозначность в перекрывающихся областях, обеспечивает корректные зависимости от перекрытия и сохраняет структурную целостность, что приводит к существенному повышению точности в разнообразных сценах.

English

Recent layout-to-image models have achieved remarkable progress in spatial controllability. However, they still struggle with inter-object occlusion. When bounding boxes overlap, most existing methods lack explicit occlusion information, which makes the generation in intersection regions inherently ambiguous and hinders the determination of complex occlusion relationships. As a result, they often produce entangled textures or physically inconsistent layering in the overlapped areas. To address this issue, we first construct SA-Z, a large-scale dataset enriched with explicit occlusion ordering and pixel-level annotations. Building upon our proposed dataset, we introduce OcclusionFormer, a novel occlusion-aware Diffusion Transformer framework that explicitly models Z-order priority by decoupling instances and compositing them via volume rendering. Furthermore, to ensure fine-grained spatial precision, we introduce a queried alignment loss that explicitly supervises individual instances and enhances semantic consistency. The proposed method effectively reduces ambiguity in overlapping regions, enforces correct occlusion dependencies, and preserves structural integrity, leading to substantial accuracy gains across diverse scenes.