InfiniteYou: Recreación Flexible de Fotos Mientras Preservas tu Identidad
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
March 20, 2025
Autores: Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu
cs.AI
Resumen
Lograr una generación de imágenes flexible y de alta fidelidad que preserve la identidad sigue siendo un desafío formidable, especialmente con modelos avanzados de Transformadores de Difusión (DiTs) como FLUX. Presentamos InfiniteYou (InfU), uno de los primeros marcos robustos que aprovecha DiTs para esta tarea. InfU aborda problemas significativos de los métodos existentes, como la similitud de identidad insuficiente, la alineación deficiente entre texto e imagen, y la baja calidad y estética en la generación. El núcleo de InfU es InfuseNet, un componente que inyecta características de identidad en el modelo base DiT mediante conexiones residuales, mejorando la similitud de identidad mientras mantiene las capacidades de generación. Una estrategia de entrenamiento en múltiples etapas, que incluye preentrenamiento y ajuste fino supervisado (SFT) con datos sintéticos de una persona-múltiples muestras (SPMS), mejora aún más la alineación texto-imagen, optimiza la calidad de la imagen y reduce el efecto de copiar y pegar rostros. Experimentos exhaustivos demuestran que InfU alcanza un rendimiento de vanguardia, superando a los métodos baselines existentes. Además, el diseño plug-and-play de InfU garantiza compatibilidad con varios métodos existentes, ofreciendo una contribución valiosa para la comunidad en general.
English
Achieving flexible and high-fidelity identity-preserved image generation
remains formidable, particularly with advanced Diffusion Transformers (DiTs)
like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust
frameworks leveraging DiTs for this task. InfU addresses significant issues of
existing methods, such as insufficient identity similarity, poor text-image
alignment, and low generation quality and aesthetics. Central to InfU is
InfuseNet, a component that injects identity features into the DiT base model
via residual connections, enhancing identity similarity while maintaining
generation capabilities. A multi-stage training strategy, including pretraining
and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample
(SPMS) data, further improves text-image alignment, ameliorates image quality,
and alleviates face copy-pasting. Extensive experiments demonstrate that InfU
achieves state-of-the-art performance, surpassing existing baselines. In
addition, the plug-and-play design of InfU ensures compatibility with various
existing methods, offering a valuable contribution to the broader community.Summary
AI-Generated Summary