UMO: Schaalbaarheid van multi-identiteitsconsistentie voor beeldaanpassing via matchingbeloning
UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward
September 8, 2025
Auteurs: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He
cs.AI
Samenvatting
Recente vooruitgang in beeldaanpassing toont een breed scala aan toepassingsmogelijkheden dankzij sterkere aanpassingsmogelijkheden. Omdat wij mensen echter gevoeliger zijn voor gezichten, blijft het een aanzienlijke uitdaging om een consistente identiteit te behouden terwijl identiteitsverwarring met meerdere referentiebeelden wordt vermeden, wat de identiteitsschaalbaarheid van aanpassingsmodellen beperkt. Om dit aan te pakken presenteren we UMO, een Unified Multi-identity Optimization-framework, ontworpen om hoogwaardige identiteitsbehoud te handhaven en identiteitsverwarring met schaalbaarheid te verminderen. Met het "multi-to-multi matching"-paradigma herformuleert UMO multi-identiteitsgeneratie als een globaal toewijzingsoptimalisatieprobleem en bevrijdt het multi-identiteitsconsistentie voor bestaande beeldaanpassingsmethoden in het algemeen door middel van reinforcement learning op diffusiemodellen. Om de training van UMO te vergemakkelijken, ontwikkelen we een schaalbare aanpassingsdataset met meerdere referentiebeelden, bestaande uit zowel gesynthetiseerde als echte delen. Daarnaast stellen we een nieuwe metriek voor om identiteitsverwarring te meten. Uitgebreide experimenten tonen aan dat UMO niet alleen de identiteitsconsistentie aanzienlijk verbetert, maar ook identiteitsverwarring vermindert bij verschillende beeldaanpassingsmethoden, waarmee het een nieuwe state-of-the-art neerzet onder open-source methoden op het gebied van identiteitsbehoud. Code en model: https://github.com/bytedance/UMO
English
Recent advancements in image customization exhibit a wide range of
application prospects due to stronger customization capabilities. However,
since we humans are more sensitive to faces, a significant challenge remains in
preserving consistent identity while avoiding identity confusion with
multi-reference images, limiting the identity scalability of customization
models. To address this, we present UMO, a Unified Multi-identity Optimization
framework, designed to maintain high-fidelity identity preservation and
alleviate identity confusion with scalability. With "multi-to-multi matching"
paradigm, UMO reformulates multi-identity generation as a global assignment
optimization problem and unleashes multi-identity consistency for existing
image customization methods generally through reinforcement learning on
diffusion models. To facilitate the training of UMO, we develop a scalable
customization dataset with multi-reference images, consisting of both
synthesised and real parts. Additionally, we propose a new metric to measure
identity confusion. Extensive experiments demonstrate that UMO not only
improves identity consistency significantly, but also reduces identity
confusion on several image customization methods, setting a new
state-of-the-art among open-source methods along the dimension of identity
preserving. Code and model: https://github.com/bytedance/UMO