InfiniteYou: Flexibele Fotobewerking met Behoud van Je Identiteit
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
March 20, 2025
Auteurs: Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu
cs.AI
Samenvatting
Het bereiken van flexibele en hoogwaardige beeldgeneratie met behoud van identiteit blijft een uitdaging, vooral met geavanceerde Diffusion Transformers (DiTs) zoals FLUX. Wij introduceren InfiniteYou (InfU), een van de eerste robuuste frameworks die DiTs voor deze taak benut. InfU lost belangrijke problemen van bestaande methoden op, zoals onvoldoende identiteitsgelijkenis, slechte tekst-beeldafstemming en lage generatiekwaliteit en esthetiek. Centraal in InfU staat InfuseNet, een component dat identiteitskenmerken in het DiT-basismodel injecteert via restverbindingen, waardoor de identiteitsgelijkenis wordt verbeterd terwijl de generatiecapaciteiten behouden blijven. Een meerfasige trainingsstrategie, inclusief voorafgaande training en gesuperviseerde fine-tuning (SFT) met synthetische single-person-multiple-sample (SPMS) data, verbetert verder de tekst-beeldafstemming, verbetert de beeldkwaliteit en vermindert het kopiëren van gezichten. Uitgebreide experimenten tonen aan dat InfU state-of-the-art prestaties bereikt, bestaande baseline-methoden overtreffend. Bovendien zorgt het plug-and-play ontwerp van InfU voor compatibiliteit met verschillende bestaande methoden, wat een waardevolle bijdrage levert aan de bredere gemeenschap.
English
Achieving flexible and high-fidelity identity-preserved image generation
remains formidable, particularly with advanced Diffusion Transformers (DiTs)
like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust
frameworks leveraging DiTs for this task. InfU addresses significant issues of
existing methods, such as insufficient identity similarity, poor text-image
alignment, and low generation quality and aesthetics. Central to InfU is
InfuseNet, a component that injects identity features into the DiT base model
via residual connections, enhancing identity similarity while maintaining
generation capabilities. A multi-stage training strategy, including pretraining
and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample
(SPMS) data, further improves text-image alignment, ameliorates image quality,
and alleviates face copy-pasting. Extensive experiments demonstrate that InfU
achieves state-of-the-art performance, surpassing existing baselines. In
addition, the plug-and-play design of InfU ensures compatibility with various
existing methods, offering a valuable contribution to the broader community.Summary
AI-Generated Summary