InfiniteYou : Recréation flexible de photos tout en préservant votre identité
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
March 20, 2025
Auteurs: Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu
cs.AI
Résumé
Atteindre une génération d'images flexible et de haute fidélité tout en préservant l'identité reste un défi de taille, en particulier avec des modèles avancés de Transformers de Diffusion (DiTs) comme FLUX. Nous présentons InfiniteYou (InfU), l'un des premiers cadres robustes exploitant les DiTs pour cette tâche. InfU résout des problèmes majeurs des méthodes existantes, tels qu'une similarité d'identité insuffisante, un mauvais alignement texte-image, ainsi qu'une qualité et une esthétique de génération médiocres. Au cœur d'InfU se trouve InfuseNet, un composant qui injecte des caractéristiques d'identité dans le modèle de base DiT via des connexions résiduelles, améliorant ainsi la similarité d'identité tout en préservant les capacités de génération. Une stratégie d'entraînement en plusieurs étapes, incluant un pré-entraînement et un ajustement fin supervisé (SFT) avec des données synthétiques de type single-person-multiple-sample (SPMS), améliore davantage l'alignement texte-image, optimise la qualité des images et atténue le copier-coller de visages. Des expériences approfondies démontrent qu'InfU atteint des performances de pointe, surpassant les bases de référence existantes. De plus, la conception plug-and-play d'InfU garantit une compatibilité avec diverses méthodes existantes, offrant ainsi une contribution précieuse à la communauté élargie.
English
Achieving flexible and high-fidelity identity-preserved image generation
remains formidable, particularly with advanced Diffusion Transformers (DiTs)
like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust
frameworks leveraging DiTs for this task. InfU addresses significant issues of
existing methods, such as insufficient identity similarity, poor text-image
alignment, and low generation quality and aesthetics. Central to InfU is
InfuseNet, a component that injects identity features into the DiT base model
via residual connections, enhancing identity similarity while maintaining
generation capabilities. A multi-stage training strategy, including pretraining
and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample
(SPMS) data, further improves text-image alignment, ameliorates image quality,
and alleviates face copy-pasting. Extensive experiments demonstrate that InfU
achieves state-of-the-art performance, surpassing existing baselines. In
addition, the plug-and-play design of InfU ensures compatibility with various
existing methods, offering a valuable contribution to the broader community.