WithAnyone: Auf dem Weg zu kontrollierbarer und ID-konsistenter Bildgenerierung
WithAnyone: Towards Controllable and ID Consistent Image Generation
October 16, 2025
papers.authors: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
papers.abstract
Die identitätskonsistente Generierung hat sich zu einem wichtigen Schwerpunkt in der Text-zu-Bild-Forschung entwickelt, wobei aktuelle Modelle bemerkenswerte Erfolge bei der Erzeugung von Bildern erzielen, die mit einer Referenzidentität übereinstimmen. Dennoch zwingt die Knappheit groß angelegter gepaarter Datensätze, die mehrere Bilder derselben Person enthalten, die meisten Ansätze dazu, ein rekonstruktionsbasiertes Training zu verwenden. Diese Abhängigkeit führt häufig zu einem Fehlermodus, den wir als „Copy-Paste“ bezeichnen, bei dem das Modell das Referenzgesicht direkt repliziert, anstatt die Identität über natürliche Variationen in Pose, Ausdruck oder Beleuchtung hinweg zu bewahren. Eine solche übermäßige Ähnlichkeit untergräbt die Steuerbarkeit und begrenzt die Ausdruckskraft der Generierung. Um diese Einschränkungen zu überwinden, (1) erstellen wir einen groß angelegten gepaarten Datensatz, MultiID-2M, der für Szenarien mit mehreren Personen optimiert ist und vielfältige Referenzen für jede Identität bereitstellt; (2) führen wir ein Benchmark ein, das sowohl Copy-Paste-Artefakte als auch den Kompromiss zwischen Identitätstreue und Variation quantifiziert; und (3) schlagen wir ein neuartiges Trainingsparadigma mit einem kontrastiven Identitätsverlust vor, das gepaarte Daten nutzt, um Treue mit Vielfalt auszugleichen. Diese Beiträge gipfeln in WithAnyone, einem diffusionsbasierten Modell, das Copy-Paste effektiv reduziert und gleichzeitig eine hohe Identitätsähnlichkeit bewahrt. Umfangreiche qualitative und quantitative Experimente zeigen, dass WithAnyone Copy-Paste-Artefakte signifikant verringert, die Steuerbarkeit über Pose und Ausdruck verbessert und eine starke wahrnehmbare Qualität beibehält. Benutzerstudien bestätigen weiterhin, dass unsere Methode eine hohe Identitätstreue erreicht und gleichzeitig eine ausdrucksstarke, steuerbare Generierung ermöglicht.
English
Identity-consistent generation has become an important focus in text-to-image
research, with recent models achieving notable success in producing images
aligned with a reference identity. Yet, the scarcity of large-scale paired
datasets containing multiple images of the same individual forces most
approaches to adopt reconstruction-based training. This reliance often leads to
a failure mode we term copy-paste, where the model directly replicates the
reference face rather than preserving identity across natural variations in
pose, expression, or lighting. Such over-similarity undermines controllability
and limits the expressive power of generation. To address these limitations, we
(1) construct a large-scale paired dataset MultiID-2M, tailored for
multi-person scenarios, providing diverse references for each identity; (2)
introduce a benchmark that quantifies both copy-paste artifacts and the
trade-off between identity fidelity and variation; and (3) propose a novel
training paradigm with a contrastive identity loss that leverages paired data
to balance fidelity with diversity. These contributions culminate in
WithAnyone, a diffusion-based model that effectively mitigates copy-paste while
preserving high identity similarity. Extensive qualitative and quantitative
experiments demonstrate that WithAnyone significantly reduces copy-paste
artifacts, improves controllability over pose and expression, and maintains
strong perceptual quality. User studies further validate that our method
achieves high identity fidelity while enabling expressive controllable
generation.