LayerComposer: Interaktive personalisierte T2I über räumlich bewusste Ebenen-Leinwand
LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas
October 23, 2025
papers.authors: Guocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang
cs.AI
papers.abstract
Trotz ihrer beeindruckenden visuellen Treue mangelt es bestehenden personalisierten Generativmodellen an interaktiver Kontrolle über die räumliche Komposition, und sie skalieren schlecht für mehrere Subjekte. Um diese Einschränkungen zu adressieren, präsentieren wir LayerComposer, ein interaktives Framework für die personalisierte, mehrsubjektige Text-zu-Bild-Generierung. Unser Ansatz führt zwei Hauptbeiträge ein: (1) eine geschichtete Leinwand, eine neuartige Repräsentation, bei der jedes Subjekt auf einer separaten Ebene platziert wird, was eine verdeckungsfreie Komposition ermöglicht; und (2) einen Sperrmechanismus, der ausgewählte Ebenen mit hoher Treue bewahrt, während die verbleibenden Ebenen sich flexibel an den umgebenden Kontext anpassen können. Ähnlich wie professioneller Bildbearbeitungssoftware erlaubt die vorgeschlagene geschichtete Leinwand Benutzern, Eingabesubjekte durch intuitive Ebenenmanipulation zu platzieren, zu skalieren oder zu sperren. Unser vielseitiger Sperrmechanismus erfordert keine Architekturänderungen, sondern stützt sich auf inhärente positionsbezogene Einbettungen in Kombination mit einer neuen komplementären Datenabtaststrategie. Umfangreiche Experimente zeigen, dass LayerComposer im Vergleich zu state-of-the-art Methoden in der mehrsubjektigen personalisierten Bildgenerierung eine überlegene räumliche Kontrolle und Identitätsbewahrung erreicht.
English
Despite their impressive visual fidelity, existing personalized generative
models lack interactive control over spatial composition and scale poorly to
multiple subjects. To address these limitations, we present LayerComposer, an
interactive framework for personalized, multi-subject text-to-image generation.
Our approach introduces two main contributions: (1) a layered canvas, a novel
representation in which each subject is placed on a distinct layer, enabling
occlusion-free composition; and (2) a locking mechanism that preserves selected
layers with high fidelity while allowing the remaining layers to adapt flexibly
to the surrounding context. Similar to professional image-editing software, the
proposed layered canvas allows users to place, resize, or lock input subjects
through intuitive layer manipulation. Our versatile locking mechanism requires
no architectural changes, relying instead on inherent positional embeddings
combined with a new complementary data sampling strategy. Extensive experiments
demonstrate that LayerComposer achieves superior spatial control and identity
preservation compared to the state-of-the-art methods in multi-subject
personalized image generation.