InfiniteYou: Rielaborazione Flessibile delle Foto Mantenendo la Tua Identità
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
March 20, 2025
Autori: Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu
cs.AI
Abstract
Raggiungere una generazione di immagini flessibile e ad alta fedeltà che preservi l'identità rimane una sfida significativa, specialmente con modelli avanzati come i Diffusion Transformers (DiTs) quali FLUX. Introduciamo InfiniteYou (InfU), uno dei primi framework robusti che sfrutta i DiTs per questo compito. InfU affronta problemi rilevanti dei metodi esistenti, come l'insufficiente somiglianza dell'identità, il disallineamento testo-immagine e la bassa qualità e estetica della generazione. Cuore di InfU è InfuseNet, un componente che inietta caratteristiche di identità nel modello base DiT tramite connessioni residue, migliorando la somiglianza dell'identità senza compromettere le capacità di generazione. Una strategia di addestramento multi-stadio, che include pre-addestramento e fine-tuning supervisionato (SFT) con dati sintetici single-person-multiple-sample (SPMS), migliora ulteriormente l'allineamento testo-immagine, ottimizza la qualità delle immagini e riduce il fenomeno del copia-incolla dei volti. Esperimenti estensivi dimostrano che InfU raggiunge prestazioni all'avanguardia, superando i benchmark esistenti. Inoltre, il design plug-and-play di InfU garantisce compatibilità con vari metodi esistenti, offrendo un contributo prezioso alla comunità più ampia.
English
Achieving flexible and high-fidelity identity-preserved image generation
remains formidable, particularly with advanced Diffusion Transformers (DiTs)
like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust
frameworks leveraging DiTs for this task. InfU addresses significant issues of
existing methods, such as insufficient identity similarity, poor text-image
alignment, and low generation quality and aesthetics. Central to InfU is
InfuseNet, a component that injects identity features into the DiT base model
via residual connections, enhancing identity similarity while maintaining
generation capabilities. A multi-stage training strategy, including pretraining
and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample
(SPMS) data, further improves text-image alignment, ameliorates image quality,
and alleviates face copy-pasting. Extensive experiments demonstrate that InfU
achieves state-of-the-art performance, surpassing existing baselines. In
addition, the plug-and-play design of InfU ensures compatibility with various
existing methods, offering a valuable contribution to the broader community.Summary
AI-Generated Summary