LayerComposer: T2I Interativo e Personalizado através de Tela em Camadas com Consciência Espacial
LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas
October 23, 2025
Autores: Guocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang
cs.AI
Resumo
Apesar de sua impressionante fidelidade visual, os modelos generativos personalizados existentes carecem de controle interativo sobre a composição espacial e não escalam bem para múltiplos sujeitos. Para superar essas limitações, apresentamos o LayerComposer, uma estrutura interativa para geração de imagens texto-para-imagem personalizada e multi-sujeito. Nossa abordagem introduz duas contribuições principais: (1) uma tela em camadas, uma nova representação na qual cada sujeito é colocado em uma camada distinta, permitindo uma composição livre de oclusão; e (2) um mecanismo de bloqueio que preserva camadas selecionadas com alta fidelidade, permitindo que as camadas restantes se adaptem flexivelmente ao contexto circundante. Semelhante a softwares profissionais de edição de imagem, a tela em camadas proposta permite que os usuários posicionem, redimensionem ou bloqueiem sujeitos de entrada por meio de uma manipulação intuitiva de camadas. Nosso versátil mecanismo de bloqueio não requer alterações arquiteturais, baseando-se, em vez disso, em *embeddings* posicionais inerentes combinados com uma nova estratégia de amostragem de dados complementar. Experimentos extensivos demonstram que o LayerComposer alcança um controle espacial e uma preservação de identidade superiores em comparação com os métodos state-of-the-art em geração de imagens personalizadas multi-sujeito.
English
Despite their impressive visual fidelity, existing personalized generative
models lack interactive control over spatial composition and scale poorly to
multiple subjects. To address these limitations, we present LayerComposer, an
interactive framework for personalized, multi-subject text-to-image generation.
Our approach introduces two main contributions: (1) a layered canvas, a novel
representation in which each subject is placed on a distinct layer, enabling
occlusion-free composition; and (2) a locking mechanism that preserves selected
layers with high fidelity while allowing the remaining layers to adapt flexibly
to the surrounding context. Similar to professional image-editing software, the
proposed layered canvas allows users to place, resize, or lock input subjects
through intuitive layer manipulation. Our versatile locking mechanism requires
no architectural changes, relying instead on inherent positional embeddings
combined with a new complementary data sampling strategy. Extensive experiments
demonstrate that LayerComposer achieves superior spatial control and identity
preservation compared to the state-of-the-art methods in multi-subject
personalized image generation.