ChatPaper.aiChatPaper

MUSAR: Onderzoek naar Multi-Subject Aanpassing vanuit een Enkel-Subject Dataset via Attention Routing

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

May 5, 2025
Auteurs: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI

Samenvatting

Huidige benaderingen voor multi-subject aanpassing staan voor twee kritieke uitdagingen: de moeilijkheid om diverse multi-subject trainingsdata te verkrijgen, en attribuutverstrengeling tussen verschillende onderwerpen. Om deze kloof te overbruggen, stellen we MUSAR voor - een eenvoudig maar effectief raamwerk om robuuste multi-subject aanpassing te bereiken terwijl alleen single-subject trainingsdata nodig is. Ten eerste introduceren we, om de databeperking te doorbreken, debiased diptych leren. Het construeert diptych trainingsparen uit single-subject afbeeldingen om multi-subject leren te faciliteren, terwijl het actief de distributie-bias die door diptych constructie wordt geïntroduceerd corrigeert via statische aandacht routing en dual-branch LoRA. Ten tweede introduceren we, om kruis-subject verstrengeling te elimineren, een dynamisch aandacht routing mechanisme, dat adaptief bijectieve mappingen tussen gegenereerde afbeeldingen en conditionele onderwerpen vaststelt. Dit ontwerp bereikt niet alleen ontkoppeling van multi-subject representaties, maar behoudt ook schaalbare generalisatieprestaties met toenemende referentieonderwerpen. Uitgebreide experimenten tonen aan dat onze MUSAR bestaande methoden overtreft - zelfs die getraind op multi-subject datasets - in beeldkwaliteit, onderwerpconsistentie en interactienaturaliteit, ondanks dat het alleen single-subject datasets vereist.
English
Current multi-subject customization approaches encounter two critical challenges: the difficulty in acquiring diverse multi-subject training data, and attribute entanglement across different subjects. To bridge these gaps, we propose MUSAR - a simple yet effective framework to achieve robust multi-subject customization while requiring only single-subject training data. Firstly, to break the data limitation, we introduce debiased diptych learning. It constructs diptych training pairs from single-subject images to facilitate multi-subject learning, while actively correcting the distribution bias introduced by diptych construction via static attention routing and dual-branch LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic attention routing mechanism, which adaptively establishes bijective mappings between generated images and conditional subjects. This design not only achieves decoupling of multi-subject representations but also maintains scalable generalization performance with increasing reference subjects. Comprehensive experiments demonstrate that our MUSAR outperforms existing methods - even those trained on multi-subject dataset - in image quality, subject consistency, and interaction naturalness, despite requiring only single-subject dataset.
PDF51May 6, 2025