ChatPaper.aiChatPaper

UMO : Mise à l'échelle de la cohérence multi-identité pour la personnalisation d'images via une récompense d'appariement

UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

September 8, 2025
papers.authors: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He
cs.AI

papers.abstract

Les récents progrès en matière de personnalisation d'images révèlent un large éventail de perspectives d'application grâce à des capacités de personnalisation renforcées. Cependant, étant donné que les humains sont plus sensibles aux visages, un défi majeur persiste à préserver une identité cohérente tout en évitant la confusion d'identité avec des images multi-références, limitant ainsi l'évolutivité identitaire des modèles de personnalisation. Pour résoudre ce problème, nous présentons UMO, un cadre d'Optimisation Multi-identité Unifié, conçu pour maintenir une préservation d'identité haute fidélité et atténuer la confusion d'identité avec évolutivité. Grâce au paradigme de "correspondance multi-à-multi", UMO reformule la génération multi-identité comme un problème d'optimisation d'affectation globale et libère la cohérence multi-identité pour les méthodes de personnalisation d'images existantes, généralement via l'apprentissage par renforcement sur les modèles de diffusion. Pour faciliter l'entraînement d'UMO, nous développons un ensemble de données de personnalisation évolutif avec des images multi-références, composé à la fois de parties synthétisées et réelles. De plus, nous proposons une nouvelle métrique pour mesurer la confusion d'identité. Des expériences approfondies démontrent qu'UMO améliore non seulement de manière significative la cohérence identitaire, mais réduit également la confusion d'identité sur plusieurs méthodes de personnalisation d'images, établissant ainsi un nouvel état de l'art parmi les méthodes open-source en termes de préservation d'identité. Code et modèle : https://github.com/bytedance/UMO
English
Recent advancements in image customization exhibit a wide range of application prospects due to stronger customization capabilities. However, since we humans are more sensitive to faces, a significant challenge remains in preserving consistent identity while avoiding identity confusion with multi-reference images, limiting the identity scalability of customization models. To address this, we present UMO, a Unified Multi-identity Optimization framework, designed to maintain high-fidelity identity preservation and alleviate identity confusion with scalability. With "multi-to-multi matching" paradigm, UMO reformulates multi-identity generation as a global assignment optimization problem and unleashes multi-identity consistency for existing image customization methods generally through reinforcement learning on diffusion models. To facilitate the training of UMO, we develop a scalable customization dataset with multi-reference images, consisting of both synthesised and real parts. Additionally, we propose a new metric to measure identity confusion. Extensive experiments demonstrate that UMO not only improves identity consistency significantly, but also reduces identity confusion on several image customization methods, setting a new state-of-the-art among open-source methods along the dimension of identity preserving. Code and model: https://github.com/bytedance/UMO
PDF272September 10, 2025