XVerse: Consistente controle van meerdere subjecten over identiteit en semantische attributen via DiT-modulatie
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation
June 26, 2025
Auteurs: Bowen Chen, Mengyi Zhao, Haomiao Sun, Li Chen, Xu Wang, Kang Du, Xinglong Wu
cs.AI
Samenvatting
Het bereiken van fijnmazige controle over onderwerpidentiteit en semantische attributen
(pose, stijl, belichting) in tekst-naar-beeldgeneratie, met name voor meerdere
onderwerpen, ondermijnt vaak de bewerkbaarheid en samenhang van Diffusion
Transformers (DiTs). Veel benaderingen introduceren artefacten of lijden onder
attribuutverstrengeling. Om deze uitdagingen te overwinnen, stellen we een nieuw
multi-onderwerp gecontroleerd generatiemodel voor, genaamd XVerse. Door referentiebeelden
om te zetten in offsets voor tokenspecifieke tekststroommodulatie, maakt XVerse precieze
en onafhankelijke controle mogelijk voor specifieke onderwerpen zonder de beeldlatenten
of kenmerken te verstoren. Hierdoor biedt XVerse hoogwaardige, bewerkbare multi-onderwerp
beeldgeneratie met robuuste controle over individuele onderwerpkenmerken en semantische
attributen. Deze vooruitgang verbetert aanzienlijk de mogelijkheden voor gepersonaliseerde
en complexe scènegeneratie.
English
Achieving fine-grained control over subject identity and semantic attributes
(pose, style, lighting) in text-to-image generation, particularly for multiple
subjects, often undermines the editability and coherence of Diffusion
Transformers (DiTs). Many approaches introduce artifacts or suffer from
attribute entanglement. To overcome these challenges, we propose a novel
multi-subject controlled generation model XVerse. By transforming reference
images into offsets for token-specific text-stream modulation, XVerse allows
for precise and independent control for specific subject without disrupting
image latents or features. Consequently, XVerse offers high-fidelity, editable
multi-subject image synthesis with robust control over individual subject
characteristics and semantic attributes. This advancement significantly
improves personalized and complex scene generation capabilities.