UMO: Schaalbaarheid van multi-identiteitsconsistentie voor beeldaanpassing via matchingbeloning

Samenvatting

Recente vooruitgang in beeldaanpassing toont een breed scala aan toepassingsmogelijkheden dankzij sterkere aanpassingsmogelijkheden. Omdat wij mensen echter gevoeliger zijn voor gezichten, blijft het een aanzienlijke uitdaging om een consistente identiteit te behouden terwijl identiteitsverwarring met meerdere referentiebeelden wordt vermeden, wat de identiteitsschaalbaarheid van aanpassingsmodellen beperkt. Om dit aan te pakken presenteren we UMO, een Unified Multi-identity Optimization-framework, ontworpen om hoogwaardige identiteitsbehoud te handhaven en identiteitsverwarring met schaalbaarheid te verminderen. Met het "multi-to-multi matching"-paradigma herformuleert UMO multi-identiteitsgeneratie als een globaal toewijzingsoptimalisatieprobleem en bevrijdt het multi-identiteitsconsistentie voor bestaande beeldaanpassingsmethoden in het algemeen door middel van reinforcement learning op diffusiemodellen. Om de training van UMO te vergemakkelijken, ontwikkelen we een schaalbare aanpassingsdataset met meerdere referentiebeelden, bestaande uit zowel gesynthetiseerde als echte delen. Daarnaast stellen we een nieuwe metriek voor om identiteitsverwarring te meten. Uitgebreide experimenten tonen aan dat UMO niet alleen de identiteitsconsistentie aanzienlijk verbetert, maar ook identiteitsverwarring vermindert bij verschillende beeldaanpassingsmethoden, waarmee het een nieuwe state-of-the-art neerzet onder open-source methoden op het gebied van identiteitsbehoud. Code en model: https://github.com/bytedance/UMO

English

Recent advancements in image customization exhibit a wide range of application prospects due to stronger customization capabilities. However, since we humans are more sensitive to faces, a significant challenge remains in preserving consistent identity while avoiding identity confusion with multi-reference images, limiting the identity scalability of customization models. To address this, we present UMO, a Unified Multi-identity Optimization framework, designed to maintain high-fidelity identity preservation and alleviate identity confusion with scalability. With "multi-to-multi matching" paradigm, UMO reformulates multi-identity generation as a global assignment optimization problem and unleashes multi-identity consistency for existing image customization methods generally through reinforcement learning on diffusion models. To facilitate the training of UMO, we develop a scalable customization dataset with multi-reference images, consisting of both synthesised and real parts. Additionally, we propose a new metric to measure identity confusion. Extensive experiments demonstrate that UMO not only improves identity consistency significantly, but also reduces identity confusion on several image customization methods, setting a new state-of-the-art among open-source methods along the dimension of identity preserving. Code and model: https://github.com/bytedance/UMO

UMO: Schaalbaarheid van multi-identiteitsconsistentie voor beeldaanpassing via matchingbeloning

UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

Samenvatting

Support