ChatPaper.aiChatPaper

UMO: Scalabilità della Coerenza Multi-Identità per la Personalizzazione delle Immagini tramite Ricompensa di Corrispondenza

UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

September 8, 2025
Autori: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He
cs.AI

Abstract

I recenti progressi nella personalizzazione delle immagini mostrano un'ampia gamma di prospettive applicative grazie a capacità di personalizzazione più avanzate. Tuttavia, poiché noi esseri umani siamo più sensibili ai volti, rimane una sfida significativa nel preservare un'identità coerente evitando al contempo la confusione di identità con immagini multi-riferimento, limitando così la scalabilità dell'identità nei modelli di personalizzazione. Per affrontare questo problema, presentiamo UMO, un framework di Unified Multi-identity Optimization, progettato per mantenere un'elevata fedeltà nella preservazione dell'identità e alleviare la confusione di identità con scalabilità. Con il paradigma del "multi-to-multi matching", UMO riformula la generazione multi-identità come un problema di ottimizzazione globale dell'assegnazione e libera la coerenza multi-identità per i metodi esistenti di personalizzazione delle immagini generalmente attraverso l'apprendimento per rinforzo sui modelli di diffusione. Per facilitare l'addestramento di UMO, abbiamo sviluppato un dataset di personalizzazione scalabile con immagini multi-riferimento, composto sia da parti sintetizzate che reali. Inoltre, proponiamo una nuova metrica per misurare la confusione di identità. Esperimenti estensivi dimostrano che UMO non solo migliora significativamente la coerenza dell'identità, ma riduce anche la confusione di identità su diversi metodi di personalizzazione delle immagini, stabilendo un nuovo stato dell'arte tra i metodi open-source lungo la dimensione della preservazione dell'identità. Codice e modello: https://github.com/bytedance/UMO
English
Recent advancements in image customization exhibit a wide range of application prospects due to stronger customization capabilities. However, since we humans are more sensitive to faces, a significant challenge remains in preserving consistent identity while avoiding identity confusion with multi-reference images, limiting the identity scalability of customization models. To address this, we present UMO, a Unified Multi-identity Optimization framework, designed to maintain high-fidelity identity preservation and alleviate identity confusion with scalability. With "multi-to-multi matching" paradigm, UMO reformulates multi-identity generation as a global assignment optimization problem and unleashes multi-identity consistency for existing image customization methods generally through reinforcement learning on diffusion models. To facilitate the training of UMO, we develop a scalable customization dataset with multi-reference images, consisting of both synthesised and real parts. Additionally, we propose a new metric to measure identity confusion. Extensive experiments demonstrate that UMO not only improves identity consistency significantly, but also reduces identity confusion on several image customization methods, setting a new state-of-the-art among open-source methods along the dimension of identity preserving. Code and model: https://github.com/bytedance/UMO
PDF292September 10, 2025