ChatPaper.aiChatPaper

WithAnyone: Naar beheersbare en ID-consistente beeldgeneratie

WithAnyone: Towards Controllable and ID Consistent Image Generation

October 16, 2025
Auteurs: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI

Samenvatting

Identiteitsconsistente generatie is een belangrijk aandachtspunt geworden in tekst-naar-beeldonderzoek, waarbij recente modellen opmerkelijke successen boeken in het produceren van afbeeldingen die overeenkomen met een referentie-identiteit. Echter, de schaarste aan grootschalige gepaarde datasets met meerdere afbeeldingen van dezelfde persoon dwingt de meeste benaderingen om reconstructie-gebaseerde training te gebruiken. Deze afhankelijkheid leidt vaak tot een foutmodus die we copy-paste noemen, waarbij het model het referentiegezicht direct kopieert in plaats van de identiteit te behouden bij natuurlijke variaties in houding, expressie of belichting. Een dergelijke overmatige gelijkenis ondermijnt de bestuurbaarheid en beperkt de expressieve kracht van de generatie. Om deze beperkingen aan te pakken, (1) construeren we een grootschalige gepaarde dataset, MultiID-2M, afgestemd op scenario's met meerdere personen, die diverse referenties biedt voor elke identiteit; (2) introduceren we een benchmark die zowel copy-paste-artefacten kwantificeert als de afweging tussen identiteitsgetrouwheid en variatie; en (3) stellen we een nieuw trainingsparadigma voor met een contrastief identiteitsverlies dat gepaarde data benut om getrouwheid te balanceren met diversiteit. Deze bijdragen resulteren in WithAnyone, een op diffusie gebaseerd model dat copy-paste effectief vermindert terwijl het een hoge identiteitsgelijkenis behoudt. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat WithAnyone copy-paste-artefacten aanzienlijk vermindert, de bestuurbaarheid over houding en expressie verbetert en een sterke perceptuele kwaliteit behoudt. Gebruikersstudies bevestigen verder dat onze methode een hoge identiteitsgetrouwheid bereikt terwijl het expressieve en bestuurbare generatie mogelijk maakt.
English
Identity-consistent generation has become an important focus in text-to-image research, with recent models achieving notable success in producing images aligned with a reference identity. Yet, the scarcity of large-scale paired datasets containing multiple images of the same individual forces most approaches to adopt reconstruction-based training. This reliance often leads to a failure mode we term copy-paste, where the model directly replicates the reference face rather than preserving identity across natural variations in pose, expression, or lighting. Such over-similarity undermines controllability and limits the expressive power of generation. To address these limitations, we (1) construct a large-scale paired dataset MultiID-2M, tailored for multi-person scenarios, providing diverse references for each identity; (2) introduce a benchmark that quantifies both copy-paste artifacts and the trade-off between identity fidelity and variation; and (3) propose a novel training paradigm with a contrastive identity loss that leverages paired data to balance fidelity with diversity. These contributions culminate in WithAnyone, a diffusion-based model that effectively mitigates copy-paste while preserving high identity similarity. Extensive qualitative and quantitative experiments demonstrate that WithAnyone significantly reduces copy-paste artifacts, improves controllability over pose and expression, and maintains strong perceptual quality. User studies further validate that our method achieves high identity fidelity while enabling expressive controllable generation.
PDF763October 17, 2025