Imagine-se: Geração de Imagens Personalizadas sem Ajustes.Imagine yourself: Tuning-Free Personalized Image Generation
Os modelos de difusão têm demonstrado uma eficácia notável em várias tarefas de imagem para imagem. Nesta pesquisa, apresentamos Imagine yourself, um modelo de ponta projetado para geração de imagens personalizadas. Ao contrário das técnicas convencionais de personalização baseadas em ajustes, o Imagine yourself opera como um modelo livre de ajustes, permitindo que todos os usuários aproveitem um framework compartilhado sem ajustes individualizados. Além disso, trabalhos anteriores enfrentaram desafios ao equilibrar a preservação de identidade, seguir instruções complexas e preservar boa qualidade visual, resultando em modelos com forte efeito de copiar e colar das imagens de referência. Assim, eles dificilmente conseguem gerar imagens seguindo instruções que exigem mudanças significativas na imagem de referência, como mudar a expressão facial, poses de cabeça e corpo, e a diversidade das imagens geradas é baixa. Para lidar com essas limitações, nosso método proposto introduz 1) um novo mecanismo de geração de dados sintéticos em pares para incentivar a diversidade de imagens, 2) uma arquitetura de atenção totalmente paralela com três codificadores de texto e um codificador de visão totalmente treinável para melhorar a fidelidade ao texto, e 3) uma metodologia inovadora de ajuste fino em múltiplos estágios de grosso a fino que gradualmente eleva o limite da qualidade visual. Nosso estudo demonstra que o Imagine yourself supera o modelo de personalização de ponta, exibindo capacidades superiores em preservação de identidade, qualidade visual e alinhamento de texto. Este modelo estabelece uma base robusta para várias aplicações de personalização. Resultados de avaliação humana validam a superioridade do modelo em relação a todos os aspectos (preservação de identidade, fidelidade ao texto e apelo visual) em comparação com os modelos de personalização anteriores.