WithAnyone: Verso una Generazione di Immagini Controllabile e con Identità Coerente
WithAnyone: Towards Controllable and ID Consistent Image Generation
October 16, 2025
Autori: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Abstract
La generazione coerente con l'identità è diventata un aspetto cruciale nella ricerca sul testo-immagine, con modelli recenti che hanno ottenuto successi significativi nella produzione di immagini allineate a un'identità di riferimento. Tuttavia, la scarsità di dataset su larga scala contenenti più immagini della stessa persona costringe la maggior parte degli approcci ad adottare un addestramento basato sulla ricostruzione. Questa dipendenza spesso porta a una modalità di fallimento che definiamo "copia-incolla", in cui il modello replica direttamente il volto di riferimento anziché preservare l'identità attraverso variazioni naturali di posa, espressione o illuminazione. Tale eccessiva somiglianza compromette la controllabilità e limita il potere espressivo della generazione. Per affrontare queste limitazioni, noi (1) costruiamo un dataset su larga scala MultiID-2M, progettato per scenari multi-persona, fornendo riferimenti diversificati per ogni identità; (2) introduciamo un benchmark che quantifica sia gli artefatti di copia-incolla sia il compromesso tra fedeltà all'identità e variazione; e (3) proponiamo un nuovo paradigma di addestramento con una funzione di perdita contrastiva per l'identità che sfrutta i dati accoppiati per bilanciare fedeltà e diversità. Questi contributi culminano in WithAnyone, un modello basato su diffusione che mitiga efficacemente il copia-incolla preservando un'elevata somiglianza con l'identità. Esperimenti qualitativi e quantitativi estesi dimostrano che WithAnyone riduce significativamente gli artefatti di copia-incolla, migliora la controllabilità su posa ed espressione e mantiene una forte qualità percettiva. Studi con utenti convalidano ulteriormente che il nostro metodo raggiunge un'elevata fedeltà all'identità consentendo una generazione controllata ed espressiva.
English
Identity-consistent generation has become an important focus in text-to-image
research, with recent models achieving notable success in producing images
aligned with a reference identity. Yet, the scarcity of large-scale paired
datasets containing multiple images of the same individual forces most
approaches to adopt reconstruction-based training. This reliance often leads to
a failure mode we term copy-paste, where the model directly replicates the
reference face rather than preserving identity across natural variations in
pose, expression, or lighting. Such over-similarity undermines controllability
and limits the expressive power of generation. To address these limitations, we
(1) construct a large-scale paired dataset MultiID-2M, tailored for
multi-person scenarios, providing diverse references for each identity; (2)
introduce a benchmark that quantifies both copy-paste artifacts and the
trade-off between identity fidelity and variation; and (3) propose a novel
training paradigm with a contrastive identity loss that leverages paired data
to balance fidelity with diversity. These contributions culminate in
WithAnyone, a diffusion-based model that effectively mitigates copy-paste while
preserving high identity similarity. Extensive qualitative and quantitative
experiments demonstrate that WithAnyone significantly reduces copy-paste
artifacts, improves controllability over pose and expression, and maintains
strong perceptual quality. User studies further validate that our method
achieves high identity fidelity while enabling expressive controllable
generation.