LayerComposer : Génération interactive et personnalisée de texte-à-image via une toile à calques spatialement intelligente
LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas
October 23, 2025
papers.authors: Guocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang
cs.AI
papers.abstract
Malgré leur impressionnante fidélité visuelle, les modèles génératifs personnalisés existants manquent de contrôle interactif sur la composition spatiale et ne s'adaptent pas efficacement à la génération de multiples sujets. Pour résoudre ces limitations, nous présentons LayerComposer, un cadre interactif pour la génération d'images text-to-image personnalisées et multi-sujets. Notre approche introduit deux contributions principales : (1) un canevas en couches, une nouvelle représentation dans laquelle chaque sujet est placé sur une couche distincte, permettant une composition sans occlusion ; et (2) un mécanisme de verrouillage qui préserve les couches sélectionnées avec une haute fidélité tout en permettant aux couches restantes de s'adapter flexiblement au contexte environnant. À l'instar des logiciels professionnels de retouche d'image, le canevas en couches proposé permet aux utilisateurs de placer, redimensionner ou verrouiller des sujets d'entrée via une manipulation intuitive des couches. Notre mécanisme de verrouillage polyvalent ne nécessite aucune modification architecturale, reposant plutôt sur des embeddings positionnels inhérents combinés à une nouvelle stratégie d'échantillonnage de données complémentaire. Des expériences approfondies démontrent que LayerComposer atteint un contrôle spatial et une préservation de l'identité supérieurs par rapport aux méthodes de l'état de l'art dans la génération d'images personnalisées multi-sujets.
English
Despite their impressive visual fidelity, existing personalized generative
models lack interactive control over spatial composition and scale poorly to
multiple subjects. To address these limitations, we present LayerComposer, an
interactive framework for personalized, multi-subject text-to-image generation.
Our approach introduces two main contributions: (1) a layered canvas, a novel
representation in which each subject is placed on a distinct layer, enabling
occlusion-free composition; and (2) a locking mechanism that preserves selected
layers with high fidelity while allowing the remaining layers to adapt flexibly
to the surrounding context. Similar to professional image-editing software, the
proposed layered canvas allows users to place, resize, or lock input subjects
through intuitive layer manipulation. Our versatile locking mechanism requires
no architectural changes, relying instead on inherent positional embeddings
combined with a new complementary data sampling strategy. Extensive experiments
demonstrate that LayerComposer achieves superior spatial control and identity
preservation compared to the state-of-the-art methods in multi-subject
personalized image generation.