MUSAR: 単一被験者データセットからのマルチ被験者カスタマイズをアテンションルーティングで探求
MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
May 5, 2025
著者: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI
要旨
現在のマルチサブジェクトカスタマイズ手法は、2つの重要な課題に直面しています。1つは多様なマルチサブジェクトのトレーニングデータを取得する難しさ、もう1つは異なるサブジェクト間の属性の絡み合いです。これらのギャップを埋めるため、我々はMUSARを提案します。これはシングルサブジェクトのトレーニングデータのみを必要としながら、堅牢なマルチサブジェクトカスタマイズを実現するシンプルかつ効果的なフレームワークです。
まず、データの制限を打破するために、バイアス除去型ディプティック学習を導入します。これはシングルサブジェクト画像からディプティックトレーニングペアを構築し、マルチサブジェクト学習を促進すると同時に、静的アテンションルーティングとデュアルブランチLoRAを通じて、ディプティック構築によって導入される分布バイアスを積極的に補正します。
次に、サブジェクト間の絡み合いを解消するために、動的アテンションルーティングメカニズムを導入します。これは生成画像と条件付きサブジェクトの間の双射的マッピングを適応的に確立します。この設計は、マルチサブジェクト表現の分離を実現するだけでなく、参照サブジェクトが増加してもスケーラブルな汎化性能を維持します。
包括的な実験により、我々のMUSARは、マルチサブジェクトデータセットでトレーニングされた既存手法よりも、画像品質、サブジェクトの一貫性、インタラクションの自然さにおいて優れていることが実証されました。これはシングルサブジェクトデータセットのみを必要とするにもかかわらずです。
English
Current multi-subject customization approaches encounter two critical
challenges: the difficulty in acquiring diverse multi-subject training data,
and attribute entanglement across different subjects. To bridge these gaps, we
propose MUSAR - a simple yet effective framework to achieve robust
multi-subject customization while requiring only single-subject training data.
Firstly, to break the data limitation, we introduce debiased diptych learning.
It constructs diptych training pairs from single-subject images to facilitate
multi-subject learning, while actively correcting the distribution bias
introduced by diptych construction via static attention routing and dual-branch
LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic
attention routing mechanism, which adaptively establishes bijective mappings
between generated images and conditional subjects. This design not only
achieves decoupling of multi-subject representations but also maintains
scalable generalization performance with increasing reference subjects.
Comprehensive experiments demonstrate that our MUSAR outperforms existing
methods - even those trained on multi-subject dataset - in image quality,
subject consistency, and interaction naturalness, despite requiring only
single-subject dataset.Summary
AI-Generated Summary