MUSAR: 단일 주제 데이터셋에서 주의 라우팅을 통한 다중 주제 맞춤화 탐구
MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
May 5, 2025
저자: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI
초록
현재의 다중 주체 맞춤화 접근법은 두 가지 중요한 과제에 직면해 있습니다: 다양한 다중 주체 학습 데이터를 획득하기 어렵다는 점과 서로 다른 주체 간의 속성 얽힘 문제입니다. 이러한 격차를 해소하기 위해, 우리는 단일 주체 학습 데이터만으로도 강력한 다중 주체 맞춤화를 달성할 수 있는 간단하면서도 효과적인 프레임워크인 MUSAR를 제안합니다. 첫째, 데이터 제약을 극복하기 위해 편향 제거된 디프틱 학습을 도입했습니다. 이는 단일 주체 이미지로부터 디프틱 학습 쌍을 구성하여 다중 주체 학습을 촉진함과 동시에, 정적 주의 라우팅과 이중 분기 LoRA를 통해 디프틱 구성으로 인한 분포 편향을 능동적으로 수정합니다. 둘째, 주체 간 얽힘 문제를 해결하기 위해 동적 주의 라우팅 메커니즘을 도입했습니다. 이는 생성된 이미지와 조건부 주체 간의 전단사 매핑을 적응적으로 설정하여, 다중 주체 표현의 분리를 달성할 뿐만 아니라 참조 주체가 증가함에 따라 확장 가능한 일반화 성능을 유지합니다. 포괄적인 실험을 통해 우리의 MUSAR가 다중 주체 데이터셋으로 학습된 기존 방법들보다도 이미지 품질, 주체 일관성, 상호작용 자연스러움 측면에서 우수한 성능을 보임을 입증했습니다. 이는 단일 주체 데이터셋만을 요구함에도 불구하고 이루어진 결과입니다.
English
Current multi-subject customization approaches encounter two critical
challenges: the difficulty in acquiring diverse multi-subject training data,
and attribute entanglement across different subjects. To bridge these gaps, we
propose MUSAR - a simple yet effective framework to achieve robust
multi-subject customization while requiring only single-subject training data.
Firstly, to break the data limitation, we introduce debiased diptych learning.
It constructs diptych training pairs from single-subject images to facilitate
multi-subject learning, while actively correcting the distribution bias
introduced by diptych construction via static attention routing and dual-branch
LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic
attention routing mechanism, which adaptively establishes bijective mappings
between generated images and conditional subjects. This design not only
achieves decoupling of multi-subject representations but also maintains
scalable generalization performance with increasing reference subjects.
Comprehensive experiments demonstrate that our MUSAR outperforms existing
methods - even those trained on multi-subject dataset - in image quality,
subject consistency, and interaction naturalness, despite requiring only
single-subject dataset.Summary
AI-Generated Summary