InfiniteYou: Rielaborazione Flessibile delle Foto Mantenendo la Tua Identità

Abstract

Raggiungere una generazione di immagini flessibile e ad alta fedeltà che preservi l'identità rimane una sfida significativa, specialmente con modelli avanzati come i Diffusion Transformers (DiTs) quali FLUX. Introduciamo InfiniteYou (InfU), uno dei primi framework robusti che sfrutta i DiTs per questo compito. InfU affronta problemi rilevanti dei metodi esistenti, come l'insufficiente somiglianza dell'identità, il disallineamento testo-immagine e la bassa qualità e estetica della generazione. Cuore di InfU è InfuseNet, un componente che inietta caratteristiche di identità nel modello base DiT tramite connessioni residue, migliorando la somiglianza dell'identità senza compromettere le capacità di generazione. Una strategia di addestramento multi-stadio, che include pre-addestramento e fine-tuning supervisionato (SFT) con dati sintetici single-person-multiple-sample (SPMS), migliora ulteriormente l'allineamento testo-immagine, ottimizza la qualità delle immagini e riduce il fenomeno del copia-incolla dei volti. Esperimenti estensivi dimostrano che InfU raggiunge prestazioni all'avanguardia, superando i benchmark esistenti. Inoltre, il design plug-and-play di InfU garantisce compatibilità con vari metodi esistenti, offrendo un contributo prezioso alla comunità più ampia.

English

Achieving flexible and high-fidelity identity-preserved image generation remains formidable, particularly with advanced Diffusion Transformers (DiTs) like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust frameworks leveraging DiTs for this task. InfU addresses significant issues of existing methods, such as insufficient identity similarity, poor text-image alignment, and low generation quality and aesthetics. Central to InfU is InfuseNet, a component that injects identity features into the DiT base model via residual connections, enhancing identity similarity while maintaining generation capabilities. A multi-stage training strategy, including pretraining and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample (SPMS) data, further improves text-image alignment, ameliorates image quality, and alleviates face copy-pasting. Extensive experiments demonstrate that InfU achieves state-of-the-art performance, surpassing existing baselines. In addition, the plug-and-play design of InfU ensures compatibility with various existing methods, offering a valuable contribution to the broader community.

InfiniteYou: Rielaborazione Flessibile delle Foto Mantenendo la Tua Identità

InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

Abstract

Support