InfiniteYou: Recriação Flexível de Fotos com Preservação da Sua Identidade
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
March 20, 2025
Autores: Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu
cs.AI
Resumo
A obtenção de geração de imagens flexível e de alta fidelidade que preservem a identidade continua sendo um desafio significativo, especialmente com modelos avançados de Transformers de Difusão (DiTs) como o FLUX. Apresentamos o InfiniteYou (InfU), um dos primeiros frameworks robustos a utilizar DiTs para essa tarefa. O InfU aborda problemas críticos dos métodos existentes, como similaridade insuficiente de identidade, alinhamento inadequado entre texto e imagem, e baixa qualidade e estética na geração. O componente central do InfU é o InfuseNet, que injeta características de identidade no modelo base DiT por meio de conexões residuais, aprimorando a similaridade de identidade enquanto mantém as capacidades de geração. Uma estratégia de treinamento em múltiplos estágios, incluindo pré-treinamento e ajuste fino supervisionado (SFT) com dados sintéticos de múltiplas amostras de uma única pessoa (SPMS), melhora ainda mais o alinhamento texto-imagem, aprimora a qualidade da imagem e reduz o efeito de "copiar e colar" de rostos. Experimentos extensivos demonstram que o InfU alcança desempenho de ponta, superando as abordagens existentes. Além disso, o design plug-and-play do InfU garante compatibilidade com diversos métodos já estabelecidos, oferecendo uma contribuição valiosa para a comunidade em geral.
English
Achieving flexible and high-fidelity identity-preserved image generation
remains formidable, particularly with advanced Diffusion Transformers (DiTs)
like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust
frameworks leveraging DiTs for this task. InfU addresses significant issues of
existing methods, such as insufficient identity similarity, poor text-image
alignment, and low generation quality and aesthetics. Central to InfU is
InfuseNet, a component that injects identity features into the DiT base model
via residual connections, enhancing identity similarity while maintaining
generation capabilities. A multi-stage training strategy, including pretraining
and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample
(SPMS) data, further improves text-image alignment, ameliorates image quality,
and alleviates face copy-pasting. Extensive experiments demonstrate that InfU
achieves state-of-the-art performance, surpassing existing baselines. In
addition, the plug-and-play design of InfU ensures compatibility with various
existing methods, offering a valuable contribution to the broader community.Summary
AI-Generated Summary