ChatPaper.aiChatPaper

XVerse : Contrôle cohérent des identités et attributs sémantiques multi-sujets via la modulation DiT

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

June 26, 2025
Auteurs: Bowen Chen, Mengyi Zhao, Haomiao Sun, Li Chen, Xu Wang, Kang Du, Xinglong Wu
cs.AI

Résumé

Atteindre un contrôle précis de l'identité du sujet et des attributs sémantiques (pose, style, éclairage) dans la génération d'images à partir de texte, en particulier pour plusieurs sujets, compromet souvent l'éditabilité et la cohérence des Transformers de Diffusion (DiTs). De nombreuses approches introduisent des artefacts ou souffrent d'un enchevêtrement des attributs. Pour surmonter ces défis, nous proposons un nouveau modèle de génération contrôlée multi-sujets appelé XVerse. En transformant des images de référence en décalages pour la modulation spécifique des tokens dans le flux textuel, XVerse permet un contrôle précis et indépendant pour un sujet spécifique sans perturber les latents ou les caractéristiques de l'image. Par conséquent, XVerse offre une synthèse d'images multi-sujets de haute fidélité et éditable avec un contrôle robuste des caractéristiques individuelles des sujets et des attributs sémantiques. Cette avancée améliore significativement les capacités de génération de scènes personnalisées et complexes.
English
Achieving fine-grained control over subject identity and semantic attributes (pose, style, lighting) in text-to-image generation, particularly for multiple subjects, often undermines the editability and coherence of Diffusion Transformers (DiTs). Many approaches introduce artifacts or suffer from attribute entanglement. To overcome these challenges, we propose a novel multi-subject controlled generation model XVerse. By transforming reference images into offsets for token-specific text-stream modulation, XVerse allows for precise and independent control for specific subject without disrupting image latents or features. Consequently, XVerse offers high-fidelity, editable multi-subject image synthesis with robust control over individual subject characteristics and semantic attributes. This advancement significantly improves personalized and complex scene generation capabilities.
PDF263June 30, 2025