ChatPaper.aiChatPaper

MUSAR: Erforschung der Multi-Subjekt-Anpassung aus einem Einzel-Subjekt-Datensatz mittels Attention Routing

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

May 5, 2025
Autoren: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI

Zusammenfassung

Aktuelle Ansätze zur Multi-Subjekt-Anpassung stehen vor zwei kritischen Herausforderungen: die Schwierigkeit, vielfältige Trainingsdaten für mehrere Subjekte zu beschaffen, und die Verflechtung von Attributen zwischen verschiedenen Subjekten. Um diese Lücken zu schließen, schlagen wir MUSAR vor – ein einfaches, aber effektives Framework, das eine robuste Multi-Subjekt-Anpassung ermöglicht, während nur Trainingsdaten für einzelne Subjekte benötigt werden. Erstens führen wir, um die Datenbeschränkung zu überwinden, das debiased diptych learning ein. Es konstruiert diptych-Trainingspaare aus Bildern einzelner Subjekte, um das Lernen mehrerer Subjekte zu erleichtern, während es gleichzeitig den durch die Diptych-Konstruktion eingeführten Verzerrungseffekt aktiv durch statisches Attention Routing und dual-branch LoRA korrigiert. Zweitens führen wir, um die Verflechtung zwischen Subjekten zu beseitigen, einen dynamischen Attention-Routing-Mechanismus ein, der adaptiv bijektive Abbildungen zwischen generierten Bildern und konditionalen Subjekten herstellt. Dieses Design erreicht nicht nur die Entkopplung von Multi-Subjekt-Repräsentationen, sondern bewahrt auch eine skalierbare Generalisierungsleistung bei zunehmenden Referenzsubjekten. Umfassende Experimente zeigen, dass unser MUSAR bestehende Methoden – selbst solche, die auf Multi-Subjekt-Datensätzen trainiert wurden – in Bezug auf Bildqualität, Subjektkonsistenz und Interaktionsnatürlichkeit übertrifft, obwohl es nur einen Single-Subjekt-Datensatz benötigt.
English
Current multi-subject customization approaches encounter two critical challenges: the difficulty in acquiring diverse multi-subject training data, and attribute entanglement across different subjects. To bridge these gaps, we propose MUSAR - a simple yet effective framework to achieve robust multi-subject customization while requiring only single-subject training data. Firstly, to break the data limitation, we introduce debiased diptych learning. It constructs diptych training pairs from single-subject images to facilitate multi-subject learning, while actively correcting the distribution bias introduced by diptych construction via static attention routing and dual-branch LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic attention routing mechanism, which adaptively establishes bijective mappings between generated images and conditional subjects. This design not only achieves decoupling of multi-subject representations but also maintains scalable generalization performance with increasing reference subjects. Comprehensive experiments demonstrate that our MUSAR outperforms existing methods - even those trained on multi-subject dataset - in image quality, subject consistency, and interaction naturalness, despite requiring only single-subject dataset.

Summary

AI-Generated Summary

PDF31May 6, 2025