WithAnyone: Naar beheersbare en ID-consistente beeldgeneratie
WithAnyone: Towards Controllable and ID Consistent Image Generation
October 16, 2025
Auteurs: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Samenvatting
Identiteitsconsistente generatie is een belangrijk aandachtspunt geworden in tekst-naar-beeldonderzoek, waarbij recente modellen opmerkelijke successen boeken in het produceren van afbeeldingen die overeenkomen met een referentie-identiteit. Echter, de schaarste aan grootschalige gepaarde datasets met meerdere afbeeldingen van dezelfde persoon dwingt de meeste benaderingen om reconstructie-gebaseerde training te gebruiken. Deze afhankelijkheid leidt vaak tot een foutmodus die we copy-paste noemen, waarbij het model het referentiegezicht direct kopieert in plaats van de identiteit te behouden bij natuurlijke variaties in houding, expressie of belichting. Een dergelijke overmatige gelijkenis ondermijnt de bestuurbaarheid en beperkt de expressieve kracht van de generatie. Om deze beperkingen aan te pakken, (1) construeren we een grootschalige gepaarde dataset, MultiID-2M, afgestemd op scenario's met meerdere personen, die diverse referenties biedt voor elke identiteit; (2) introduceren we een benchmark die zowel copy-paste-artefacten kwantificeert als de afweging tussen identiteitsgetrouwheid en variatie; en (3) stellen we een nieuw trainingsparadigma voor met een contrastief identiteitsverlies dat gepaarde data benut om getrouwheid te balanceren met diversiteit. Deze bijdragen resulteren in WithAnyone, een op diffusie gebaseerd model dat copy-paste effectief vermindert terwijl het een hoge identiteitsgelijkenis behoudt. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat WithAnyone copy-paste-artefacten aanzienlijk vermindert, de bestuurbaarheid over houding en expressie verbetert en een sterke perceptuele kwaliteit behoudt. Gebruikersstudies bevestigen verder dat onze methode een hoge identiteitsgetrouwheid bereikt terwijl het expressieve en bestuurbare generatie mogelijk maakt.
English
Identity-consistent generation has become an important focus in text-to-image
research, with recent models achieving notable success in producing images
aligned with a reference identity. Yet, the scarcity of large-scale paired
datasets containing multiple images of the same individual forces most
approaches to adopt reconstruction-based training. This reliance often leads to
a failure mode we term copy-paste, where the model directly replicates the
reference face rather than preserving identity across natural variations in
pose, expression, or lighting. Such over-similarity undermines controllability
and limits the expressive power of generation. To address these limitations, we
(1) construct a large-scale paired dataset MultiID-2M, tailored for
multi-person scenarios, providing diverse references for each identity; (2)
introduce a benchmark that quantifies both copy-paste artifacts and the
trade-off between identity fidelity and variation; and (3) propose a novel
training paradigm with a contrastive identity loss that leverages paired data
to balance fidelity with diversity. These contributions culminate in
WithAnyone, a diffusion-based model that effectively mitigates copy-paste while
preserving high identity similarity. Extensive qualitative and quantitative
experiments demonstrate that WithAnyone significantly reduces copy-paste
artifacts, improves controllability over pose and expression, and maintains
strong perceptual quality. User studies further validate that our method
achieves high identity fidelity while enabling expressive controllable
generation.