WithAnyone: Auf dem Weg zu kontrollierbarer und ID-konsistenter Bildgenerierung

papers.abstract

Die identitätskonsistente Generierung hat sich zu einem wichtigen Schwerpunkt in der Text-zu-Bild-Forschung entwickelt, wobei aktuelle Modelle bemerkenswerte Erfolge bei der Erzeugung von Bildern erzielen, die mit einer Referenzidentität übereinstimmen. Dennoch zwingt die Knappheit groß angelegter gepaarter Datensätze, die mehrere Bilder derselben Person enthalten, die meisten Ansätze dazu, ein rekonstruktionsbasiertes Training zu verwenden. Diese Abhängigkeit führt häufig zu einem Fehlermodus, den wir als „Copy-Paste“ bezeichnen, bei dem das Modell das Referenzgesicht direkt repliziert, anstatt die Identität über natürliche Variationen in Pose, Ausdruck oder Beleuchtung hinweg zu bewahren. Eine solche übermäßige Ähnlichkeit untergräbt die Steuerbarkeit und begrenzt die Ausdruckskraft der Generierung. Um diese Einschränkungen zu überwinden, (1) erstellen wir einen groß angelegten gepaarten Datensatz, MultiID-2M, der für Szenarien mit mehreren Personen optimiert ist und vielfältige Referenzen für jede Identität bereitstellt; (2) führen wir ein Benchmark ein, das sowohl Copy-Paste-Artefakte als auch den Kompromiss zwischen Identitätstreue und Variation quantifiziert; und (3) schlagen wir ein neuartiges Trainingsparadigma mit einem kontrastiven Identitätsverlust vor, das gepaarte Daten nutzt, um Treue mit Vielfalt auszugleichen. Diese Beiträge gipfeln in WithAnyone, einem diffusionsbasierten Modell, das Copy-Paste effektiv reduziert und gleichzeitig eine hohe Identitätsähnlichkeit bewahrt. Umfangreiche qualitative und quantitative Experimente zeigen, dass WithAnyone Copy-Paste-Artefakte signifikant verringert, die Steuerbarkeit über Pose und Ausdruck verbessert und eine starke wahrnehmbare Qualität beibehält. Benutzerstudien bestätigen weiterhin, dass unsere Methode eine hohe Identitätstreue erreicht und gleichzeitig eine ausdrucksstarke, steuerbare Generierung ermöglicht.

English

Identity-consistent generation has become an important focus in text-to-image research, with recent models achieving notable success in producing images aligned with a reference identity. Yet, the scarcity of large-scale paired datasets containing multiple images of the same individual forces most approaches to adopt reconstruction-based training. This reliance often leads to a failure mode we term copy-paste, where the model directly replicates the reference face rather than preserving identity across natural variations in pose, expression, or lighting. Such over-similarity undermines controllability and limits the expressive power of generation. To address these limitations, we (1) construct a large-scale paired dataset MultiID-2M, tailored for multi-person scenarios, providing diverse references for each identity; (2) introduce a benchmark that quantifies both copy-paste artifacts and the trade-off between identity fidelity and variation; and (3) propose a novel training paradigm with a contrastive identity loss that leverages paired data to balance fidelity with diversity. These contributions culminate in WithAnyone, a diffusion-based model that effectively mitigates copy-paste while preserving high identity similarity. Extensive qualitative and quantitative experiments demonstrate that WithAnyone significantly reduces copy-paste artifacts, improves controllability over pose and expression, and maintains strong perceptual quality. User studies further validate that our method achieves high identity fidelity while enabling expressive controllable generation.

WithAnyone: Auf dem Weg zu kontrollierbarer und ID-konsistenter Bildgenerierung

WithAnyone: Towards Controllable and ID Consistent Image Generation

papers.abstract

Support