MUSAR: Исследование настройки для нескольких субъектов на основе набора данных одного субъекта с использованием маршрутизации внимания

Аннотация

Современные подходы к настройке для нескольких объектов сталкиваются с двумя ключевыми проблемами: сложностью получения разнообразных обучающих данных для нескольких объектов и переплетением атрибутов между различными объектами. Для преодоления этих ограничений мы предлагаем MUSAR — простую, но эффективную структуру, которая позволяет достичь надежной настройки для нескольких объектов, используя только данные для одного объекта. Во-первых, чтобы устранить ограничения данных, мы вводим обучение с устранением смещения через диптихи. Оно создает диптихи обучающих пар из изображений одного объекта, что способствует обучению для нескольких объектов, одновременно активно корректируя смещение распределения, вызванное построением диптихов, с помощью статической маршрутизации внимания и двухветвевой LoRA. Во-вторых, для устранения переплетения между объектами мы вводим механизм динамической маршрутизации внимания, который адаптивно устанавливает биективные соответствия между генерируемыми изображениями и условными объектами. Этот подход не только обеспечивает разделение представлений для нескольких объектов, но и поддерживает масштабируемую обобщающую способность с увеличением числа эталонных объектов. Комплексные эксперименты показывают, что наш MUSAR превосходит существующие методы — даже те, которые обучены на наборах данных для нескольких объектов — по качеству изображений, согласованности объектов и естественности взаимодействий, несмотря на использование только данных для одного объекта.

English

Current multi-subject customization approaches encounter two critical challenges: the difficulty in acquiring diverse multi-subject training data, and attribute entanglement across different subjects. To bridge these gaps, we propose MUSAR - a simple yet effective framework to achieve robust multi-subject customization while requiring only single-subject training data. Firstly, to break the data limitation, we introduce debiased diptych learning. It constructs diptych training pairs from single-subject images to facilitate multi-subject learning, while actively correcting the distribution bias introduced by diptych construction via static attention routing and dual-branch LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic attention routing mechanism, which adaptively establishes bijective mappings between generated images and conditional subjects. This design not only achieves decoupling of multi-subject representations but also maintains scalable generalization performance with increasing reference subjects. Comprehensive experiments demonstrate that our MUSAR outperforms existing methods - even those trained on multi-subject dataset - in image quality, subject consistency, and interaction naturalness, despite requiring only single-subject dataset.

MUSAR: Исследование настройки для нескольких субъектов на основе набора данных одного субъекта с использованием маршрутизации внимания

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

Аннотация

Support