WithAnyone : Vers une génération d'images contrôlable et cohérente en termes d'identité
WithAnyone: Towards Controllable and ID Consistent Image Generation
October 16, 2025
papers.authors: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
papers.abstract
La génération cohérente d'identité est devenue un axe majeur dans la recherche sur la génération d'images à partir de texte, avec des modèles récents obtenant des succès notables dans la production d'images alignées avec une identité de référence. Cependant, la rareté de jeux de données appariés à grande échelle contenant plusieurs images d'une même personne contraint la plupart des approches à adopter un entraînement basé sur la reconstruction. Cette dépendance conduit souvent à un mode d'échec que nous appelons *copier-coller*, où le modèle reproduit directement le visage de référence plutôt que de préserver l'identité à travers des variations naturelles de pose, d'expression ou d'éclairage. Une telle sur-similarité compromet la contrôlabilité et limite la puissance expressive de la génération. Pour surmonter ces limitations, nous (1) construisons un jeu de données apparié à grande échelle, MultiID-2M, conçu pour des scénarios multi-personnes, fournissant des références diversifiées pour chaque identité ; (2) introduisons un benchmark qui quantifie à la fois les artefacts de copier-coller et le compromis entre fidélité à l'identité et variation ; et (3) proposons un nouveau paradigme d'entraînement avec une fonction de perte d'identité contrastive qui exploite les données appariées pour équilibrer fidélité et diversité. Ces contributions aboutissent à WithAnyone, un modèle basé sur la diffusion qui atténue efficacement le copier-coller tout en préservant une forte similarité d'identité. Des expériences qualitatives et quantitatives approfondies démontrent que WithAnyone réduit significativement les artefacts de copier-coller, améliore la contrôlabilité sur la pose et l'expression, et maintient une qualité perceptuelle élevée. Des études utilisateurs valident en outre que notre méthode atteint une haute fidélité d'identité tout en permettant une génération expressive et contrôlable.
English
Identity-consistent generation has become an important focus in text-to-image
research, with recent models achieving notable success in producing images
aligned with a reference identity. Yet, the scarcity of large-scale paired
datasets containing multiple images of the same individual forces most
approaches to adopt reconstruction-based training. This reliance often leads to
a failure mode we term copy-paste, where the model directly replicates the
reference face rather than preserving identity across natural variations in
pose, expression, or lighting. Such over-similarity undermines controllability
and limits the expressive power of generation. To address these limitations, we
(1) construct a large-scale paired dataset MultiID-2M, tailored for
multi-person scenarios, providing diverse references for each identity; (2)
introduce a benchmark that quantifies both copy-paste artifacts and the
trade-off between identity fidelity and variation; and (3) propose a novel
training paradigm with a contrastive identity loss that leverages paired data
to balance fidelity with diversity. These contributions culminate in
WithAnyone, a diffusion-based model that effectively mitigates copy-paste while
preserving high identity similarity. Extensive qualitative and quantitative
experiments demonstrate that WithAnyone significantly reduces copy-paste
artifacts, improves controllability over pose and expression, and maintains
strong perceptual quality. User studies further validate that our method
achieves high identity fidelity while enabling expressive controllable
generation.