LayerComposer: T2I Interattivo e Personalizzato tramite Canvas a Strati con Consapevolezza Spaziale
LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas
October 23, 2025
Autori: Guocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang
cs.AI
Abstract
Nonostante l'impressionante fedeltà visiva, i modelli generativi personalizzati esistenti mancano di controllo interattivo sulla composizione spaziale e non scalano efficacemente con più soggetti. Per affrontare queste limitazioni, presentiamo LayerComposer, un framework interattivo per la generazione di immagini personalizzate multi-soggetto da testo. Il nostro approccio introduce due contributi principali: (1) una tela stratificata, una rappresentazione innovativa in cui ogni soggetto è posizionato su un layer distinto, consentendo una composizione senza occlusioni; e (2) un meccanismo di blocco che preserva i layer selezionati con alta fedeltà, permettendo agli altri strati di adattarsi flessibilmente al contesto circostante. Analogamente ai software professionali di fotoritocco, la tela stratificata proposta consente agli utenti di posizionare, ridimensionare o bloccare i soggetti in input attraverso un'intuitiva manipolazione dei layer. Il nostro versatile meccanismo di blocco non richiede modifiche architetturali, basandosi invece su embedding posizionali intrinseci combinati con una nuova strategia di campionamento dati complementare. Esperimenti estensivi dimostrano che LayerComposer raggiunge un controllo spaziale e una preservazione dell'identità superiori rispetto ai metodi state-of-the-art nella generazione di immagini personalizzate multi-soggetto.
English
Despite their impressive visual fidelity, existing personalized generative
models lack interactive control over spatial composition and scale poorly to
multiple subjects. To address these limitations, we present LayerComposer, an
interactive framework for personalized, multi-subject text-to-image generation.
Our approach introduces two main contributions: (1) a layered canvas, a novel
representation in which each subject is placed on a distinct layer, enabling
occlusion-free composition; and (2) a locking mechanism that preserves selected
layers with high fidelity while allowing the remaining layers to adapt flexibly
to the surrounding context. Similar to professional image-editing software, the
proposed layered canvas allows users to place, resize, or lock input subjects
through intuitive layer manipulation. Our versatile locking mechanism requires
no architectural changes, relying instead on inherent positional embeddings
combined with a new complementary data sampling strategy. Extensive experiments
demonstrate that LayerComposer achieves superior spatial control and identity
preservation compared to the state-of-the-art methods in multi-subject
personalized image generation.