LayerComposer: 空間認識を備えたレイヤードキャンバスによる対話的パーソナライズT2I
LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas
October 23, 2025
著者: Guocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang
cs.AI
要旨
既存のパーソナライズ生成モデルは視覚的な忠実度が高いものの、空間構成に対するインタラクティブな制御が欠如しており、複数被写体への拡張性に課題がある。これらの制約を解決するため、本論文ではパーソナライズされた複数被写体のテキストto画像生成のためのインタラクティブフレームワーク「LayerComposer」を提案する。本手法の主な貢献は二つある:(1) 各被写体を独立したレイヤーに配置することでオクルージョンのない合成を可能にする新規表現「階層化キャンバス」、(2) 選択したレイヤーを高忠実度で維持しつつ、残りのレイヤーを周囲の文脈に柔軟に適応させるロック機構。プロフェッショナル画像編集ソフトウェアと同様に、提案する階層化キャンバスでは直感的なレイヤー操作を通じて被写体の配置、サイズ変更、固定が可能である。汎用性の高いロック機構はアーキテクチャ変更を必要とせず、内在的な位置埋め込みと新規の相補的データサンプリング戦略に基づく。大規模な実験により、LayerComposerが複数被写体パーソナライズ画像生成において、従来手法を凌駕する空間制御性と同一性保持を実現することを示す。
English
Despite their impressive visual fidelity, existing personalized generative
models lack interactive control over spatial composition and scale poorly to
multiple subjects. To address these limitations, we present LayerComposer, an
interactive framework for personalized, multi-subject text-to-image generation.
Our approach introduces two main contributions: (1) a layered canvas, a novel
representation in which each subject is placed on a distinct layer, enabling
occlusion-free composition; and (2) a locking mechanism that preserves selected
layers with high fidelity while allowing the remaining layers to adapt flexibly
to the surrounding context. Similar to professional image-editing software, the
proposed layered canvas allows users to place, resize, or lock input subjects
through intuitive layer manipulation. Our versatile locking mechanism requires
no architectural changes, relying instead on inherent positional embeddings
combined with a new complementary data sampling strategy. Extensive experiments
demonstrate that LayerComposer achieves superior spatial control and identity
preservation compared to the state-of-the-art methods in multi-subject
personalized image generation.