UMO : Mise à l'échelle de la cohérence multi-identité pour la personnalisation d'images via une récompense d'appariement
UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward
September 8, 2025
papers.authors: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He
cs.AI
papers.abstract
Les récents progrès en matière de personnalisation d'images révèlent un large éventail de perspectives d'application grâce à des capacités de personnalisation renforcées. Cependant, étant donné que les humains sont plus sensibles aux visages, un défi majeur persiste à préserver une identité cohérente tout en évitant la confusion d'identité avec des images multi-références, limitant ainsi l'évolutivité identitaire des modèles de personnalisation. Pour résoudre ce problème, nous présentons UMO, un cadre d'Optimisation Multi-identité Unifié, conçu pour maintenir une préservation d'identité haute fidélité et atténuer la confusion d'identité avec évolutivité. Grâce au paradigme de "correspondance multi-à-multi", UMO reformule la génération multi-identité comme un problème d'optimisation d'affectation globale et libère la cohérence multi-identité pour les méthodes de personnalisation d'images existantes, généralement via l'apprentissage par renforcement sur les modèles de diffusion. Pour faciliter l'entraînement d'UMO, nous développons un ensemble de données de personnalisation évolutif avec des images multi-références, composé à la fois de parties synthétisées et réelles. De plus, nous proposons une nouvelle métrique pour mesurer la confusion d'identité. Des expériences approfondies démontrent qu'UMO améliore non seulement de manière significative la cohérence identitaire, mais réduit également la confusion d'identité sur plusieurs méthodes de personnalisation d'images, établissant ainsi un nouvel état de l'art parmi les méthodes open-source en termes de préservation d'identité. Code et modèle : https://github.com/bytedance/UMO
English
Recent advancements in image customization exhibit a wide range of
application prospects due to stronger customization capabilities. However,
since we humans are more sensitive to faces, a significant challenge remains in
preserving consistent identity while avoiding identity confusion with
multi-reference images, limiting the identity scalability of customization
models. To address this, we present UMO, a Unified Multi-identity Optimization
framework, designed to maintain high-fidelity identity preservation and
alleviate identity confusion with scalability. With "multi-to-multi matching"
paradigm, UMO reformulates multi-identity generation as a global assignment
optimization problem and unleashes multi-identity consistency for existing
image customization methods generally through reinforcement learning on
diffusion models. To facilitate the training of UMO, we develop a scalable
customization dataset with multi-reference images, consisting of both
synthesised and real parts. Additionally, we propose a new metric to measure
identity confusion. Extensive experiments demonstrate that UMO not only
improves identity consistency significantly, but also reduces identity
confusion on several image customization methods, setting a new
state-of-the-art among open-source methods along the dimension of identity
preserving. Code and model: https://github.com/bytedance/UMO