InfiniteYou: Recreación Flexible de Fotos Mientras Preservas tu Identidad

Resumen

Lograr una generación de imágenes flexible y de alta fidelidad que preserve la identidad sigue siendo un desafío formidable, especialmente con modelos avanzados de Transformadores de Difusión (DiTs) como FLUX. Presentamos InfiniteYou (InfU), uno de los primeros marcos robustos que aprovecha DiTs para esta tarea. InfU aborda problemas significativos de los métodos existentes, como la similitud de identidad insuficiente, la alineación deficiente entre texto e imagen, y la baja calidad y estética en la generación. El núcleo de InfU es InfuseNet, un componente que inyecta características de identidad en el modelo base DiT mediante conexiones residuales, mejorando la similitud de identidad mientras mantiene las capacidades de generación. Una estrategia de entrenamiento en múltiples etapas, que incluye preentrenamiento y ajuste fino supervisado (SFT) con datos sintéticos de una persona-múltiples muestras (SPMS), mejora aún más la alineación texto-imagen, optimiza la calidad de la imagen y reduce el efecto de copiar y pegar rostros. Experimentos exhaustivos demuestran que InfU alcanza un rendimiento de vanguardia, superando a los métodos baselines existentes. Además, el diseño plug-and-play de InfU garantiza compatibilidad con varios métodos existentes, ofreciendo una contribución valiosa para la comunidad en general.

English

Achieving flexible and high-fidelity identity-preserved image generation remains formidable, particularly with advanced Diffusion Transformers (DiTs) like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust frameworks leveraging DiTs for this task. InfU addresses significant issues of existing methods, such as insufficient identity similarity, poor text-image alignment, and low generation quality and aesthetics. Central to InfU is InfuseNet, a component that injects identity features into the DiT base model via residual connections, enhancing identity similarity while maintaining generation capabilities. A multi-stage training strategy, including pretraining and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample (SPMS) data, further improves text-image alignment, ameliorates image quality, and alleviates face copy-pasting. Extensive experiments demonstrate that InfU achieves state-of-the-art performance, surpassing existing baselines. In addition, the plug-and-play design of InfU ensures compatibility with various existing methods, offering a valuable contribution to the broader community.

InfiniteYou: Recreación Flexible de Fotos Mientras Preservas tu Identidad

InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

Resumen

Support