UMO: Escalando la consistencia multi-identidad para la personalización de imágenes mediante recompensa por coincidencia
UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward
September 8, 2025
Autores: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He
cs.AI
Resumen
Los recientes avances en personalización de imágenes muestran un amplio espectro de perspectivas de aplicación debido a capacidades de personalización más robustas. Sin embargo, dado que los humanos somos más sensibles a los rostros, sigue existiendo un desafío significativo en preservar una identidad consistente mientras se evita la confusión de identidad con imágenes de múltiples referencias, lo que limita la escalabilidad de identidad en los modelos de personalización. Para abordar esto, presentamos UMO, un marco de Optimización Unificada de Multi-identidades, diseñado para mantener una preservación de identidad de alta fidelidad y mitigar la confusión de identidad con escalabilidad. Con el paradigma de "emparejamiento múltiple a múltiple", UMO reformula la generación de multi-identidades como un problema de optimización de asignación global y libera la consistencia de multi-identidades para los métodos existentes de personalización de imágenes, generalmente mediante aprendizaje por refuerzo en modelos de difusión. Para facilitar el entrenamiento de UMO, desarrollamos un conjunto de datos de personalización escalable con imágenes de múltiples referencias, que consta de partes sintetizadas y reales. Además, proponemos una nueva métrica para medir la confusión de identidad. Experimentos extensos demuestran que UMO no solo mejora significativamente la consistencia de identidad, sino que también reduce la confusión de identidad en varios métodos de personalización de imágenes, estableciendo un nuevo estado del arte entre los métodos de código abierto en la dimensión de preservación de identidad. Código y modelo: https://github.com/bytedance/UMO
English
Recent advancements in image customization exhibit a wide range of
application prospects due to stronger customization capabilities. However,
since we humans are more sensitive to faces, a significant challenge remains in
preserving consistent identity while avoiding identity confusion with
multi-reference images, limiting the identity scalability of customization
models. To address this, we present UMO, a Unified Multi-identity Optimization
framework, designed to maintain high-fidelity identity preservation and
alleviate identity confusion with scalability. With "multi-to-multi matching"
paradigm, UMO reformulates multi-identity generation as a global assignment
optimization problem and unleashes multi-identity consistency for existing
image customization methods generally through reinforcement learning on
diffusion models. To facilitate the training of UMO, we develop a scalable
customization dataset with multi-reference images, consisting of both
synthesised and real parts. Additionally, we propose a new metric to measure
identity confusion. Extensive experiments demonstrate that UMO not only
improves identity consistency significantly, but also reduces identity
confusion on several image customization methods, setting a new
state-of-the-art among open-source methods along the dimension of identity
preserving. Code and model: https://github.com/bytedance/UMO