XVerse: Controllo Coerente di Identità e Attributi Semantici Multi-Soggetto tramite Modulazione DiT
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation
June 26, 2025
Autori: Bowen Chen, Mengyi Zhao, Haomiao Sun, Li Chen, Xu Wang, Kang Du, Xinglong Wu
cs.AI
Abstract
Il raggiungimento di un controllo granulare sull'identità del soggetto e sugli attributi semantici (posa, stile, illuminazione) nella generazione di immagini da testo, specialmente per più soggetti, spesso compromette l'editabilità e la coerenza dei Diffusion Transformers (DiTs). Molti approcci introducono artefatti o soffrono di entanglement degli attributi. Per superare queste sfide, proponiamo un nuovo modello di generazione controllata multi-soggetto chiamato XVerse. Trasformando le immagini di riferimento in offset per la modulazione specifica del flusso di testo, XVerse consente un controllo preciso e indipendente per soggetti specifici senza alterare i latenti o le caratteristiche dell'immagine. Di conseguenza, XVerse offre una sintesi di immagini multi-soggetto ad alta fedeltà e modificabile, con un controllo robusto sulle caratteristiche individuali dei soggetti e sugli attributi semantici. Questo progresso migliora significativamente le capacità di generazione di scene personalizzate e complesse.
English
Achieving fine-grained control over subject identity and semantic attributes
(pose, style, lighting) in text-to-image generation, particularly for multiple
subjects, often undermines the editability and coherence of Diffusion
Transformers (DiTs). Many approaches introduce artifacts or suffer from
attribute entanglement. To overcome these challenges, we propose a novel
multi-subject controlled generation model XVerse. By transforming reference
images into offsets for token-specific text-stream modulation, XVerse allows
for precise and independent control for specific subject without disrupting
image latents or features. Consequently, XVerse offers high-fidelity, editable
multi-subject image synthesis with robust control over individual subject
characteristics and semantic attributes. This advancement significantly
improves personalized and complex scene generation capabilities.