XVerse : Contrôle cohérent des identités et attributs sémantiques multi-sujets via la modulation DiT
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation
June 26, 2025
Auteurs: Bowen Chen, Mengyi Zhao, Haomiao Sun, Li Chen, Xu Wang, Kang Du, Xinglong Wu
cs.AI
Résumé
Atteindre un contrôle précis de l'identité du sujet et des attributs sémantiques
(pose, style, éclairage) dans la génération d'images à partir de texte, en particulier pour plusieurs
sujets, compromet souvent l'éditabilité et la cohérence des Transformers de Diffusion (DiTs).
De nombreuses approches introduisent des artefacts ou souffrent d'un enchevêtrement des attributs.
Pour surmonter ces défis, nous proposons un nouveau modèle de génération contrôlée multi-sujets appelé XVerse.
En transformant des images de référence en décalages pour la modulation spécifique des tokens dans le flux textuel,
XVerse permet un contrôle précis et indépendant pour un sujet spécifique sans perturber les latents ou les caractéristiques de l'image.
Par conséquent, XVerse offre une synthèse d'images multi-sujets de haute fidélité et éditable avec un contrôle robuste des caractéristiques individuelles des sujets et des attributs sémantiques.
Cette avancée améliore significativement les capacités de génération de scènes personnalisées et complexes.
English
Achieving fine-grained control over subject identity and semantic attributes
(pose, style, lighting) in text-to-image generation, particularly for multiple
subjects, often undermines the editability and coherence of Diffusion
Transformers (DiTs). Many approaches introduce artifacts or suffer from
attribute entanglement. To overcome these challenges, we propose a novel
multi-subject controlled generation model XVerse. By transforming reference
images into offsets for token-specific text-stream modulation, XVerse allows
for precise and independent control for specific subject without disrupting
image latents or features. Consequently, XVerse offers high-fidelity, editable
multi-subject image synthesis with robust control over individual subject
characteristics and semantic attributes. This advancement significantly
improves personalized and complex scene generation capabilities.