ChatPaper.aiChatPaper

XVerse:DiT変調によるアイデンティティと意味的属性の一貫した多主体制御

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

June 26, 2025
著者: Bowen Chen, Mengyi Zhao, Haomiao Sun, Li Chen, Xu Wang, Kang Du, Xinglong Wu
cs.AI

要旨

テキストから画像への生成において、特に複数の被写体に対して、被写体の識別情報や意味的属性(ポーズ、スタイル、照明)を細かく制御することは、Diffusion Transformers (DiTs) の編集可能性と一貫性を損なうことが多い。多くの手法ではアーティファクトが生じたり、属性の絡み合いが問題となったりする。これらの課題を克服するため、我々は新しい複数被写体制御生成モデル XVerse を提案する。XVerse は参照画像をトークン固有のテキストストリーム変調のためのオフセットに変換することで、画像の潜在表現や特徴を乱すことなく、特定の被写体に対して正確かつ独立した制御を可能にする。その結果、XVerse は個々の被写体の特性や意味的属性を強力に制御しつつ、高忠実度で編集可能な複数被写体画像合成を実現する。この進歩により、パーソナライズされた複雑なシーン生成能力が大幅に向上する。
English
Achieving fine-grained control over subject identity and semantic attributes (pose, style, lighting) in text-to-image generation, particularly for multiple subjects, often undermines the editability and coherence of Diffusion Transformers (DiTs). Many approaches introduce artifacts or suffer from attribute entanglement. To overcome these challenges, we propose a novel multi-subject controlled generation model XVerse. By transforming reference images into offsets for token-specific text-stream modulation, XVerse allows for precise and independent control for specific subject without disrupting image latents or features. Consequently, XVerse offers high-fidelity, editable multi-subject image synthesis with robust control over individual subject characteristics and semantic attributes. This advancement significantly improves personalized and complex scene generation capabilities.
PDF263June 30, 2025