ChatPaper.aiChatPaper

LayerComposer: Интерактивное персонализированное текстово-визуальное преобразование с помощью пространственно-ориентированного многослойного холста

LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas

October 23, 2025
Авторы: Guocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang
cs.AI

Аннотация

Несмотря на впечатляющую визуальную достоверность, существующие персонализированные генеративные модели не обеспечивают интерактивного контроля над пространственной композицией и плохо масштабируются на несколько объектов. Для решения этих ограничений мы представляем LayerComposer — интерактивную систему для персонализированной генерации изображений по текстовому описанию с участием нескольких объектов. Наш подход вносит два ключевых нововведения: (1) слоистое полотно — новое представление, в котором каждый объект размещается на отдельном слое, обеспечивая композицию без перекрытий; и (2) механизм блокировки, который сохраняет выбранные слои с высокой точностью, позволяя остальным слоям гибко адаптироваться к окружающему контексту. Подобно профессиональному программному обеспечению для редактирования изображений, предложенное слоистое полотно позволяет пользователям размещать, масштабировать или блокировать исходные объекты с помощью интуитивного управления слоями. Наш универсальный механизм блокировки не требует изменений в архитектуре, полагаясь вместо этого на встроенные позиционные эмбеддинги в сочетании с новой стратегией комплементарной выборки данных. Многочисленные эксперименты демонстрируют, что LayerComposer превосходит современные методы по точности пространственного контроля и сохранения идентичности в задачах многопользовательской персонализированной генерации изображений.
English
Despite their impressive visual fidelity, existing personalized generative models lack interactive control over spatial composition and scale poorly to multiple subjects. To address these limitations, we present LayerComposer, an interactive framework for personalized, multi-subject text-to-image generation. Our approach introduces two main contributions: (1) a layered canvas, a novel representation in which each subject is placed on a distinct layer, enabling occlusion-free composition; and (2) a locking mechanism that preserves selected layers with high fidelity while allowing the remaining layers to adapt flexibly to the surrounding context. Similar to professional image-editing software, the proposed layered canvas allows users to place, resize, or lock input subjects through intuitive layer manipulation. Our versatile locking mechanism requires no architectural changes, relying instead on inherent positional embeddings combined with a new complementary data sampling strategy. Extensive experiments demonstrate that LayerComposer achieves superior spatial control and identity preservation compared to the state-of-the-art methods in multi-subject personalized image generation.
PDF92December 2, 2025