MUSAR : Exploration de la personnalisation multi-sujets à partir d'un ensemble de données mono-sujet via le routage attentionnel
MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
May 5, 2025
Auteurs: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI
Résumé
Les approches actuelles de personnalisation multi-sujets rencontrent deux défis majeurs : la difficulté d'acquisition de données d'entraînement diversifiées pour plusieurs sujets, et l'enchevêtrement des attributs entre différents sujets. Pour combler ces lacunes, nous proposons MUSAR - un cadre simple mais efficace permettant d'atteindre une personnalisation multi-sujets robuste tout en nécessitant uniquement des données d'entraînement mono-sujet. Premièrement, pour surmonter la limitation des données, nous introduisons l'apprentissage diptyque débiaisé. Celui-ci construit des paires d'entraînement diptyques à partir d'images mono-sujet pour faciliter l'apprentissage multi-sujets, tout en corrigeant activement le biais de distribution introduit par la construction diptyque via un routage d'attention statique et un LoRA à double branche. Deuxièmement, pour éliminer l'enchevêtrement inter-sujets, nous introduisons un mécanisme de routage d'attention dynamique, qui établit de manière adaptative des correspondances bijectives entre les images générées et les sujets conditionnels. Cette conception permet non seulement de découpler les représentations multi-sujets, mais aussi de maintenir des performances de généralisation évolutives avec l'augmentation des sujets de référence. Des expériences approfondies démontrent que notre MUSAR surpasse les méthodes existantes - y compris celles entraînées sur des ensembles de données multi-sujets - en termes de qualité d'image, de cohérence des sujets et de naturel des interactions, tout en ne nécessitant qu'un ensemble de données mono-sujet.
English
Current multi-subject customization approaches encounter two critical
challenges: the difficulty in acquiring diverse multi-subject training data,
and attribute entanglement across different subjects. To bridge these gaps, we
propose MUSAR - a simple yet effective framework to achieve robust
multi-subject customization while requiring only single-subject training data.
Firstly, to break the data limitation, we introduce debiased diptych learning.
It constructs diptych training pairs from single-subject images to facilitate
multi-subject learning, while actively correcting the distribution bias
introduced by diptych construction via static attention routing and dual-branch
LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic
attention routing mechanism, which adaptively establishes bijective mappings
between generated images and conditional subjects. This design not only
achieves decoupling of multi-subject representations but also maintains
scalable generalization performance with increasing reference subjects.
Comprehensive experiments demonstrate that our MUSAR outperforms existing
methods - even those trained on multi-subject dataset - in image quality,
subject consistency, and interaction naturalness, despite requiring only
single-subject dataset.Summary
AI-Generated Summary