UMO: Skalierung der Multi-Identitäts-Konsistenz für die Bildanpassung durch Belohnungsabgleich
UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward
September 8, 2025
papers.authors: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He
cs.AI
papers.abstract
Jüngste Fortschritte in der Bildanpassung zeigen aufgrund stärkerer Anpassungsfähigkeiten ein breites Spektrum an Anwendungsmöglichkeiten. Da wir Menschen jedoch besonders empfindlich auf Gesichter reagieren, besteht eine große Herausforderung darin, eine konsistente Identität zu bewahren, während eine Identitätsverwechslung bei Multi-Referenzbildern vermieden wird, was die Identitätsskalierbarkeit von Anpassungsmodellen einschränkt. Um dies zu adressieren, präsentieren wir UMO, ein Unified Multi-identity Optimization Framework, das darauf abzielt, eine hochwertige Identitätsbewahrung zu gewährleisten und Identitätsverwechslungen bei gleichzeitiger Skalierbarkeit zu verringern. Mit dem „Multi-to-Multi-Matching“-Paradigma formuliert UMO die Multi-Identitätsgenerierung als ein globales Zuweisungsoptimierungsproblem um und ermöglicht Multi-Identitätskonsistenz für bestehende Bildanpassungsmethoden allgemein durch Reinforcement Learning auf Diffusionsmodellen. Um das Training von UMO zu erleichtern, entwickeln wir einen skalierbaren Anpassungsdatensatz mit Multi-Referenzbildern, der sowohl synthetisierte als auch reale Teile umfasst. Zusätzlich schlagen wir eine neue Metrik zur Messung von Identitätsverwechslungen vor. Umfangreiche Experimente zeigen, dass UMO nicht nur die Identitätskonsistenz erheblich verbessert, sondern auch die Identitätsverwechslung bei mehreren Bildanpassungsmethoden reduziert und damit einen neuen State-of-the-art unter den Open-Source-Methoden in Bezug auf die Identitätsbewahrung setzt. Code und Modell: https://github.com/bytedance/UMO
English
Recent advancements in image customization exhibit a wide range of
application prospects due to stronger customization capabilities. However,
since we humans are more sensitive to faces, a significant challenge remains in
preserving consistent identity while avoiding identity confusion with
multi-reference images, limiting the identity scalability of customization
models. To address this, we present UMO, a Unified Multi-identity Optimization
framework, designed to maintain high-fidelity identity preservation and
alleviate identity confusion with scalability. With "multi-to-multi matching"
paradigm, UMO reformulates multi-identity generation as a global assignment
optimization problem and unleashes multi-identity consistency for existing
image customization methods generally through reinforcement learning on
diffusion models. To facilitate the training of UMO, we develop a scalable
customization dataset with multi-reference images, consisting of both
synthesised and real parts. Additionally, we propose a new metric to measure
identity confusion. Extensive experiments demonstrate that UMO not only
improves identity consistency significantly, but also reduces identity
confusion on several image customization methods, setting a new
state-of-the-art among open-source methods along the dimension of identity
preserving. Code and model: https://github.com/bytedance/UMO