ChatPaper.aiChatPaper

MUSAR : Exploration de la personnalisation multi-sujets à partir d'un ensemble de données mono-sujet via le routage attentionnel

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

May 5, 2025
Auteurs: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI

Résumé

Les approches actuelles de personnalisation multi-sujets rencontrent deux défis majeurs : la difficulté d'acquisition de données d'entraînement diversifiées pour plusieurs sujets, et l'enchevêtrement des attributs entre différents sujets. Pour combler ces lacunes, nous proposons MUSAR - un cadre simple mais efficace permettant d'atteindre une personnalisation multi-sujets robuste tout en nécessitant uniquement des données d'entraînement mono-sujet. Premièrement, pour surmonter la limitation des données, nous introduisons l'apprentissage diptyque débiaisé. Celui-ci construit des paires d'entraînement diptyques à partir d'images mono-sujet pour faciliter l'apprentissage multi-sujets, tout en corrigeant activement le biais de distribution introduit par la construction diptyque via un routage d'attention statique et un LoRA à double branche. Deuxièmement, pour éliminer l'enchevêtrement inter-sujets, nous introduisons un mécanisme de routage d'attention dynamique, qui établit de manière adaptative des correspondances bijectives entre les images générées et les sujets conditionnels. Cette conception permet non seulement de découpler les représentations multi-sujets, mais aussi de maintenir des performances de généralisation évolutives avec l'augmentation des sujets de référence. Des expériences approfondies démontrent que notre MUSAR surpasse les méthodes existantes - y compris celles entraînées sur des ensembles de données multi-sujets - en termes de qualité d'image, de cohérence des sujets et de naturel des interactions, tout en ne nécessitant qu'un ensemble de données mono-sujet.
English
Current multi-subject customization approaches encounter two critical challenges: the difficulty in acquiring diverse multi-subject training data, and attribute entanglement across different subjects. To bridge these gaps, we propose MUSAR - a simple yet effective framework to achieve robust multi-subject customization while requiring only single-subject training data. Firstly, to break the data limitation, we introduce debiased diptych learning. It constructs diptych training pairs from single-subject images to facilitate multi-subject learning, while actively correcting the distribution bias introduced by diptych construction via static attention routing and dual-branch LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic attention routing mechanism, which adaptively establishes bijective mappings between generated images and conditional subjects. This design not only achieves decoupling of multi-subject representations but also maintains scalable generalization performance with increasing reference subjects. Comprehensive experiments demonstrate that our MUSAR outperforms existing methods - even those trained on multi-subject dataset - in image quality, subject consistency, and interaction naturalness, despite requiring only single-subject dataset.

Summary

AI-Generated Summary

PDF31May 6, 2025