LayerComposer: Generación Interactiva y Personalizada de Texto a Imagen (T2I) Mediante un Lienzo en Capas con Conciencia Espacial
LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas
October 23, 2025
Autores: Guocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang
cs.AI
Resumen
A pesar de su impresionante fidelidad visual, los modelos generativos personalizados existentes carecen de control interactivo sobre la composición espacial y no escalan adecuadamente a múltiples sujetos. Para abordar estas limitaciones, presentamos LayerComposer, un marco interactivo para la generación de imágenes personalizadas de múltiples sujetos a partir de texto. Nuestro enfoque introduce dos contribuciones principales: (1) un lienzo en capas, una representación novedosa en la que cada sujeto se coloca en una capa distinta, permitiendo una composición libre de oclusiones; y (2) un mecanismo de bloqueo que preserva las capas seleccionadas con alta fidelidad mientras permite que las capas restantes se adapten flexiblemente al contexto circundante. De manera similar al software profesional de edición de imágenes, el lienzo en capas propuesto permite a los usuarios colocar, redimensionar o bloquear sujetos de entrada mediante una manipulación intuitiva de capas. Nuestro versátil mecanismo de bloqueo no requiere cambios arquitectónicos, sino que se basa en incrustaciones posicionales inherentes combinadas con una nueva estrategia de muestreo de datos complementaria. Experimentos exhaustivos demuestran que LayerComposer logra un control espacial y una preservación de la identidad superiores en comparación con los métodos de vanguardia en la generación de imágenes personalizadas de múltiples sujetos.
English
Despite their impressive visual fidelity, existing personalized generative
models lack interactive control over spatial composition and scale poorly to
multiple subjects. To address these limitations, we present LayerComposer, an
interactive framework for personalized, multi-subject text-to-image generation.
Our approach introduces two main contributions: (1) a layered canvas, a novel
representation in which each subject is placed on a distinct layer, enabling
occlusion-free composition; and (2) a locking mechanism that preserves selected
layers with high fidelity while allowing the remaining layers to adapt flexibly
to the surrounding context. Similar to professional image-editing software, the
proposed layered canvas allows users to place, resize, or lock input subjects
through intuitive layer manipulation. Our versatile locking mechanism requires
no architectural changes, relying instead on inherent positional embeddings
combined with a new complementary data sampling strategy. Extensive experiments
demonstrate that LayerComposer achieves superior spatial control and identity
preservation compared to the state-of-the-art methods in multi-subject
personalized image generation.