ChatPaper.aiChatPaper

MUSAR: Exploración de la personalización multi-sujeto a partir de un conjunto de datos de un solo sujeto mediante enrutamiento de atención

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

May 5, 2025
Autores: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He
cs.AI

Resumen

Los enfoques actuales de personalización multi-sujeto enfrentan dos desafíos críticos: la dificultad para adquirir datos de entrenamiento diversos con múltiples sujetos y el entrelazamiento de atributos entre diferentes sujetos. Para abordar estas limitaciones, proponemos MUSAR, un marco simple pero efectivo que logra una personalización multi-sujeto robusta utilizando únicamente datos de entrenamiento de un solo sujeto. En primer lugar, para superar la limitación de datos, introducimos el aprendizaje diptico debiased. Este método construye pares de entrenamiento dipticos a partir de imágenes de un solo sujeto para facilitar el aprendizaje multi-sujeto, mientras corrige activamente el sesgo de distribución introducido por la construcción diptica mediante enrutamiento de atención estática y LoRA de doble rama. En segundo lugar, para eliminar el entrelazamiento entre sujetos, introducimos un mecanismo de enrutamiento de atención dinámica, que establece de manera adaptativa mapeos biyectivos entre las imágenes generadas y los sujetos condicionales. Este diseño no solo logra desacoplar las representaciones multi-sujeto, sino que también mantiene un rendimiento de generalización escalable con el aumento de sujetos de referencia. Experimentos exhaustivos demuestran que nuestro MUSAR supera a los métodos existentes, incluso aquellos entrenados con conjuntos de datos multi-sujeto, en calidad de imagen, consistencia del sujeto y naturalidad de la interacción, a pesar de requerir únicamente un conjunto de datos de un solo sujeto.
English
Current multi-subject customization approaches encounter two critical challenges: the difficulty in acquiring diverse multi-subject training data, and attribute entanglement across different subjects. To bridge these gaps, we propose MUSAR - a simple yet effective framework to achieve robust multi-subject customization while requiring only single-subject training data. Firstly, to break the data limitation, we introduce debiased diptych learning. It constructs diptych training pairs from single-subject images to facilitate multi-subject learning, while actively correcting the distribution bias introduced by diptych construction via static attention routing and dual-branch LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic attention routing mechanism, which adaptively establishes bijective mappings between generated images and conditional subjects. This design not only achieves decoupling of multi-subject representations but also maintains scalable generalization performance with increasing reference subjects. Comprehensive experiments demonstrate that our MUSAR outperforms existing methods - even those trained on multi-subject dataset - in image quality, subject consistency, and interaction naturalness, despite requiring only single-subject dataset.

Summary

AI-Generated Summary

PDF31May 6, 2025