ChatPaper.aiChatPaper

MUSAR: Explorando a Personalização Multiassunto a partir de um Conjunto de Dados de Assunto Único via Roteamento de Atenção

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

May 5, 2025
Autores: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI

Resumo

As abordagens atuais de personalização multiassunto enfrentam dois desafios críticos: a dificuldade em adquirir dados de treinamento diversos com múltiplos assuntos e o entrelaçamento de atributos entre diferentes assuntos. Para superar essas lacunas, propomos o MUSAR - um framework simples, porém eficaz, para alcançar uma personalização multiassunto robusta, exigindo apenas dados de treinamento de um único assunto. Primeiramente, para superar a limitação de dados, introduzimos o aprendizado de díptico com correção de viés. Ele constrói pares de treinamento de díptico a partir de imagens de um único assunto para facilitar o aprendizado multiassunto, enquanto corrige ativamente o viés de distribuição introduzido pela construção do díptico por meio de roteamento de atenção estática e LoRA de ramificação dupla. Em segundo lugar, para eliminar o entrelaçamento entre assuntos, introduzimos um mecanismo de roteamento de atenção dinâmica, que estabelece mapeamentos bijetivos de forma adaptativa entre as imagens geradas e os assuntos condicionais. Esse design não apenas alcança o desacoplamento das representações multiassunto, mas também mantém um desempenho de generalização escalável com o aumento de assuntos de referência. Experimentos abrangentes demonstram que nosso MUSAR supera os métodos existentes - mesmo aqueles treinados em conjuntos de dados multiassunto - em qualidade de imagem, consistência do assunto e naturalidade da interação, apesar de exigir apenas um conjunto de dados de um único assunto.
English
Current multi-subject customization approaches encounter two critical challenges: the difficulty in acquiring diverse multi-subject training data, and attribute entanglement across different subjects. To bridge these gaps, we propose MUSAR - a simple yet effective framework to achieve robust multi-subject customization while requiring only single-subject training data. Firstly, to break the data limitation, we introduce debiased diptych learning. It constructs diptych training pairs from single-subject images to facilitate multi-subject learning, while actively correcting the distribution bias introduced by diptych construction via static attention routing and dual-branch LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic attention routing mechanism, which adaptively establishes bijective mappings between generated images and conditional subjects. This design not only achieves decoupling of multi-subject representations but also maintains scalable generalization performance with increasing reference subjects. Comprehensive experiments demonstrate that our MUSAR outperforms existing methods - even those trained on multi-subject dataset - in image quality, subject consistency, and interaction naturalness, despite requiring only single-subject dataset.
PDF51January 7, 2026