XVerse: Consistente controle van meerdere subjecten over identiteit en semantische attributen via DiT-modulatie

Samenvatting

Het bereiken van fijnmazige controle over onderwerpidentiteit en semantische attributen (pose, stijl, belichting) in tekst-naar-beeldgeneratie, met name voor meerdere onderwerpen, ondermijnt vaak de bewerkbaarheid en samenhang van Diffusion Transformers (DiTs). Veel benaderingen introduceren artefacten of lijden onder attribuutverstrengeling. Om deze uitdagingen te overwinnen, stellen we een nieuw multi-onderwerp gecontroleerd generatiemodel voor, genaamd XVerse. Door referentiebeelden om te zetten in offsets voor tokenspecifieke tekststroommodulatie, maakt XVerse precieze en onafhankelijke controle mogelijk voor specifieke onderwerpen zonder de beeldlatenten of kenmerken te verstoren. Hierdoor biedt XVerse hoogwaardige, bewerkbare multi-onderwerp beeldgeneratie met robuuste controle over individuele onderwerpkenmerken en semantische attributen. Deze vooruitgang verbetert aanzienlijk de mogelijkheden voor gepersonaliseerde en complexe scènegeneratie.

English

Achieving fine-grained control over subject identity and semantic attributes (pose, style, lighting) in text-to-image generation, particularly for multiple subjects, often undermines the editability and coherence of Diffusion Transformers (DiTs). Many approaches introduce artifacts or suffer from attribute entanglement. To overcome these challenges, we propose a novel multi-subject controlled generation model XVerse. By transforming reference images into offsets for token-specific text-stream modulation, XVerse allows for precise and independent control for specific subject without disrupting image latents or features. Consequently, XVerse offers high-fidelity, editable multi-subject image synthesis with robust control over individual subject characteristics and semantic attributes. This advancement significantly improves personalized and complex scene generation capabilities.

XVerse: Consistente controle van meerdere subjecten over identiteit en semantische attributen via DiT-modulatie

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Samenvatting

Support