MUSAR: Исследование настройки для нескольких субъектов на основе набора данных одного субъекта с использованием маршрутизации внимания
MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
May 5, 2025
Авторы: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI
Аннотация
Современные подходы к настройке для нескольких объектов сталкиваются с двумя ключевыми проблемами: сложностью получения разнообразных обучающих данных для нескольких объектов и переплетением атрибутов между различными объектами. Для преодоления этих ограничений мы предлагаем MUSAR — простую, но эффективную структуру, которая позволяет достичь надежной настройки для нескольких объектов, используя только данные для одного объекта. Во-первых, чтобы устранить ограничения данных, мы вводим обучение с устранением смещения через диптихи. Оно создает диптихи обучающих пар из изображений одного объекта, что способствует обучению для нескольких объектов, одновременно активно корректируя смещение распределения, вызванное построением диптихов, с помощью статической маршрутизации внимания и двухветвевой LoRA. Во-вторых, для устранения переплетения между объектами мы вводим механизм динамической маршрутизации внимания, который адаптивно устанавливает биективные соответствия между генерируемыми изображениями и условными объектами. Этот подход не только обеспечивает разделение представлений для нескольких объектов, но и поддерживает масштабируемую обобщающую способность с увеличением числа эталонных объектов. Комплексные эксперименты показывают, что наш MUSAR превосходит существующие методы — даже те, которые обучены на наборах данных для нескольких объектов — по качеству изображений, согласованности объектов и естественности взаимодействий, несмотря на использование только данных для одного объекта.
English
Current multi-subject customization approaches encounter two critical
challenges: the difficulty in acquiring diverse multi-subject training data,
and attribute entanglement across different subjects. To bridge these gaps, we
propose MUSAR - a simple yet effective framework to achieve robust
multi-subject customization while requiring only single-subject training data.
Firstly, to break the data limitation, we introduce debiased diptych learning.
It constructs diptych training pairs from single-subject images to facilitate
multi-subject learning, while actively correcting the distribution bias
introduced by diptych construction via static attention routing and dual-branch
LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic
attention routing mechanism, which adaptively establishes bijective mappings
between generated images and conditional subjects. This design not only
achieves decoupling of multi-subject representations but also maintains
scalable generalization performance with increasing reference subjects.
Comprehensive experiments demonstrate that our MUSAR outperforms existing
methods - even those trained on multi-subject dataset - in image quality,
subject consistency, and interaction naturalness, despite requiring only
single-subject dataset.Summary
AI-Generated Summary