XVerse: DiT 변조를 통한 일관된 다중 주체의 정체성 및 의미론적 속성 제어
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation
June 26, 2025
저자: Bowen Chen, Mengyi Zhao, Haomiao Sun, Li Chen, Xu Wang, Kang Du, Xinglong Wu
cs.AI
초록
텍스트-이미지 생성에서 주체의 정체성과 의미론적 속성(포즈, 스타일, 조명)에 대한 세밀한 제어를 달성하는 것은, 특히 다중 주체의 경우, Diffusion Transformers(DiTs)의 편집 가능성과 일관성을 저해하는 경우가 많다. 많은 접근법이 아티팩트를 유발하거나 속성 간의 얽힘 문제를 겪는다. 이러한 문제를 극복하기 위해, 우리는 새로운 다중 주체 제어 생성 모델 XVerse를 제안한다. XVerse는 참조 이미지를 토큰별 텍스트 스트림 변조를 위한 오프셋으로 변환함으로써, 이미지 잠재 공간이나 특징을 방해하지 않으면서 특정 주체에 대한 정밀하고 독립적인 제어를 가능하게 한다. 결과적으로, XVerse는 개별 주체 특성과 의미론적 속성에 대한 강력한 제어를 통해 고품질의 편집 가능한 다중 주체 이미지 합성을 제공한다. 이러한 발전은 개인화된 복잡한 장면 생성 능력을 크게 향상시킨다.
English
Achieving fine-grained control over subject identity and semantic attributes
(pose, style, lighting) in text-to-image generation, particularly for multiple
subjects, often undermines the editability and coherence of Diffusion
Transformers (DiTs). Many approaches introduce artifacts or suffer from
attribute entanglement. To overcome these challenges, we propose a novel
multi-subject controlled generation model XVerse. By transforming reference
images into offsets for token-specific text-stream modulation, XVerse allows
for precise and independent control for specific subject without disrupting
image latents or features. Consequently, XVerse offers high-fidelity, editable
multi-subject image synthesis with robust control over individual subject
characteristics and semantic attributes. This advancement significantly
improves personalized and complex scene generation capabilities.