ChatPaper.aiChatPaper

LayerComposer: 공간 인식 계층화 캔버스를 통한 인터랙티브 맞춤형 T2I

LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas

October 23, 2025
저자: Guocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang
cs.AI

초록

기존의 개인화 생성 모델은 높은 시각적 정확도를 자랑하지만 공간 구성에 대한 상호작용적 제어가 부족하고 다중 객체 생성으로 확장 적용하기에 한계가 있습니다. 이러한 한계를 해결하기 위해 본 논문에서는 개인화된 다중 객체 텍스트-이미지 생성을 위한 상호작용형 프레임워크인 LayerComposer를 제안합니다. 우리의 접근 방식은 두 가지 주요 기여점을 도입합니다: (1) 각 객체가 별도의 레이어에 배치되어 중복 없이 구성할 수 있는 새로운 표현 방식인 '계층화 캔버스'와, (2) 선택된 레이어는 높은 정확도로 보존하면서 나머지 레이어가 주변 맥락에 유연하게 적응할 수 있도록 하는 '잠금 메커니즘'입니다. 전문 이미지 편집 소프트웨어와 유사하게, 제안된 계층화 캔버스를 통해 사용자는 직관적인 레이어 조작을 통해 입력 객체를 배치, 크기 조정 또는 잠글 수 있습니다. 우리의 다용도 잠금 메커니즘은 구조 변경 없이, 내재적 위치 임베딩과 새로운 상호 보완적 데이터 샘플링 전략을 활용합니다. 광범위한 실험을 통해 LayerComposer가 다중 객체 개인화 이미지 생성 분야의 최신 방법론 대비 우수한 공간 제어 및 정체성 보존 성능을 달성함을 입증합니다.
English
Despite their impressive visual fidelity, existing personalized generative models lack interactive control over spatial composition and scale poorly to multiple subjects. To address these limitations, we present LayerComposer, an interactive framework for personalized, multi-subject text-to-image generation. Our approach introduces two main contributions: (1) a layered canvas, a novel representation in which each subject is placed on a distinct layer, enabling occlusion-free composition; and (2) a locking mechanism that preserves selected layers with high fidelity while allowing the remaining layers to adapt flexibly to the surrounding context. Similar to professional image-editing software, the proposed layered canvas allows users to place, resize, or lock input subjects through intuitive layer manipulation. Our versatile locking mechanism requires no architectural changes, relying instead on inherent positional embeddings combined with a new complementary data sampling strategy. Extensive experiments demonstrate that LayerComposer achieves superior spatial control and identity preservation compared to the state-of-the-art methods in multi-subject personalized image generation.
PDF92December 2, 2025