ChatPaper.aiChatPaper

UMO: 매칭 보상을 통한 이미지 커스터마이제이션을 위한 다중 정체성 일관성 확장

UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

September 8, 2025
저자: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He
cs.AI

초록

최근 이미지 커스터마이징 기술의 발전은 더 강력한 커스터마이징 능력으로 인해 다양한 응용 가능성을 보여주고 있습니다. 그러나 인간은 얼굴에 더 민감하기 때문에, 다중 참조 이미지와의 정체성 혼동을 피하면서 일관된 정체성을 유지하는 것은 여전히 중요한 과제로 남아 있으며, 이는 커스터마이징 모델의 정체성 확장성을 제한합니다. 이를 해결하기 위해, 우리는 고충실도 정체성 보존을 유지하고 확장성을 통해 정체성 혼동을 완화하기 위해 설계된 통합 다중 정체성 최적화 프레임워크인 UMO를 제안합니다. UMO는 "다중 대 다중 매칭" 패러다임을 통해 다중 정체성 생성을 전역 할당 최적화 문제로 재구성하고, 확산 모델에 대한 강화 학습을 통해 기존 이미지 커스터마이징 방법에 일반적으로 적용 가능한 다중 정체성 일관성을 제공합니다. UMO의 학습을 용이하게 하기 위해, 우리는 합성된 부분과 실제 부분으로 구성된 다중 참조 이미지를 포함한 확장 가능한 커스터마이징 데이터셋을 개발했습니다. 또한, 정체성 혼동을 측정하기 위한 새로운 지표를 제안합니다. 광범위한 실험을 통해 UMO가 정체성 일관성을 크게 개선할 뿐만 아니라 여러 이미지 커스터마이징 방법에서 정체성 혼동을 줄이는 것을 입증하며, 정체성 보존 측면에서 오픈소스 방법 중 새로운 최첨단 기술을 설정합니다. 코드와 모델: https://github.com/bytedance/UMO
English
Recent advancements in image customization exhibit a wide range of application prospects due to stronger customization capabilities. However, since we humans are more sensitive to faces, a significant challenge remains in preserving consistent identity while avoiding identity confusion with multi-reference images, limiting the identity scalability of customization models. To address this, we present UMO, a Unified Multi-identity Optimization framework, designed to maintain high-fidelity identity preservation and alleviate identity confusion with scalability. With "multi-to-multi matching" paradigm, UMO reformulates multi-identity generation as a global assignment optimization problem and unleashes multi-identity consistency for existing image customization methods generally through reinforcement learning on diffusion models. To facilitate the training of UMO, we develop a scalable customization dataset with multi-reference images, consisting of both synthesised and real parts. Additionally, we propose a new metric to measure identity confusion. Extensive experiments demonstrate that UMO not only improves identity consistency significantly, but also reduces identity confusion on several image customization methods, setting a new state-of-the-art among open-source methods along the dimension of identity preserving. Code and model: https://github.com/bytedance/UMO
PDF272September 10, 2025