MUSAR: Esplorazione della Personalizzazione Multi-Soggetto a Partire da un Dataset Mono-Soggetto tramite Routing dell'Attenzione
MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
May 5, 2025
Autori: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI
Abstract
Gli approcci attuali di personalizzazione multi-soggetto affrontano due sfide critiche: la difficoltà nell'acquisire dati di addestramento diversificati per più soggetti e l'entanglement degli attributi tra diversi soggetti. Per colmare queste lacune, proponiamo MUSAR, un framework semplice ma efficace per ottenere una robusta personalizzazione multi-soggetto richiedendo solo dati di addestramento per singoli soggetti. In primo luogo, per superare la limitazione dei dati, introduciamo il debiased diptych learning. Questo metodo costruisce coppie di addestramento diptych da immagini di singoli soggetti per facilitare l'apprendimento multi-soggetto, correggendo attivamente il bias di distribuzione introdotto dalla costruzione diptych tramite static attention routing e dual-branch LoRA. In secondo luogo, per eliminare l'entanglement tra soggetti, introduciamo un meccanismo di dynamic attention routing, che stabilisce in modo adattivo mappature biiettive tra le immagini generate e i soggetti condizionali. Questo design non solo raggiunge il disaccoppiamento delle rappresentazioni multi-soggetto, ma mantiene anche prestazioni di generalizzazione scalabili con l'aumento dei soggetti di riferimento. Esperimenti completi dimostrano che il nostro MUSAR supera i metodi esistenti - anche quelli addestrati su dataset multi-soggetto - in termini di qualità dell'immagine, coerenza del soggetto e naturalezza dell'interazione, nonostante richieda solo un dataset di singoli soggetti.
English
Current multi-subject customization approaches encounter two critical
challenges: the difficulty in acquiring diverse multi-subject training data,
and attribute entanglement across different subjects. To bridge these gaps, we
propose MUSAR - a simple yet effective framework to achieve robust
multi-subject customization while requiring only single-subject training data.
Firstly, to break the data limitation, we introduce debiased diptych learning.
It constructs diptych training pairs from single-subject images to facilitate
multi-subject learning, while actively correcting the distribution bias
introduced by diptych construction via static attention routing and dual-branch
LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic
attention routing mechanism, which adaptively establishes bijective mappings
between generated images and conditional subjects. This design not only
achieves decoupling of multi-subject representations but also maintains
scalable generalization performance with increasing reference subjects.
Comprehensive experiments demonstrate that our MUSAR outperforms existing
methods - even those trained on multi-subject dataset - in image quality,
subject consistency, and interaction naturalness, despite requiring only
single-subject dataset.