ChatPaper.aiChatPaper

UMO: マッチング報酬による画像カスタマイズのためのマルチアイデンティティ一貫性のスケーリング

UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

September 8, 2025
著者: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He
cs.AI

要旨

最近の画像カスタマイズ技術の進歩により、より強力なカスタマイズ能力により幅広い応用の可能性が示されています。しかし、人間は顔に対してより敏感であるため、複数の参照画像を用いた際に一貫したアイデンティティを維持しつつ、アイデンティティの混乱を避けるという重要な課題が残っており、カスタマイズモデルのアイデンティティ拡張性を制限しています。この問題に対処するため、我々はUMO(Unified Multi-identity Optimization)フレームワークを提案します。UMOは、高忠実度のアイデンティティ維持を保ち、拡張性を考慮したアイデンティティ混乱の軽減を目的としています。「多対多マッチング」パラダイムを用いて、UMOは複数アイデンティティ生成をグローバルな割り当て最適化問題として再定式化し、拡散モデルに対する強化学習を通じて既存の画像カスタマイズ手法に対して一般的に複数アイデンティティの一貫性を実現します。UMOのトレーニングを促進するため、合成データと実データの両方を含む、複数参照画像を用いた拡張可能なカスタマイズデータセットを開発しました。さらに、アイデンティティ混乱を測定するための新しい指標を提案します。大規模な実験により、UMOがアイデンティティの一貫性を大幅に向上させるだけでなく、複数の画像カスタマイズ手法においてアイデンティティ混乱を減少させ、オープンソース手法の中でもアイデンティティ保持の次元で新たな最先端を確立することが示されています。コードとモデル: https://github.com/bytedance/UMO
English
Recent advancements in image customization exhibit a wide range of application prospects due to stronger customization capabilities. However, since we humans are more sensitive to faces, a significant challenge remains in preserving consistent identity while avoiding identity confusion with multi-reference images, limiting the identity scalability of customization models. To address this, we present UMO, a Unified Multi-identity Optimization framework, designed to maintain high-fidelity identity preservation and alleviate identity confusion with scalability. With "multi-to-multi matching" paradigm, UMO reformulates multi-identity generation as a global assignment optimization problem and unleashes multi-identity consistency for existing image customization methods generally through reinforcement learning on diffusion models. To facilitate the training of UMO, we develop a scalable customization dataset with multi-reference images, consisting of both synthesised and real parts. Additionally, we propose a new metric to measure identity confusion. Extensive experiments demonstrate that UMO not only improves identity consistency significantly, but also reduces identity confusion on several image customization methods, setting a new state-of-the-art among open-source methods along the dimension of identity preserving. Code and model: https://github.com/bytedance/UMO
PDF272September 10, 2025