Imagine-se: Geração de Imagens Personalizadas sem Ajustes.
Imagine yourself: Tuning-Free Personalized Image Generation
September 20, 2024
Autores: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha
cs.AI
Resumo
Os modelos de difusão têm demonstrado uma eficácia notável em várias tarefas de imagem para imagem. Nesta pesquisa, apresentamos Imagine yourself, um modelo de ponta projetado para geração de imagens personalizadas. Ao contrário das técnicas convencionais de personalização baseadas em ajustes, o Imagine yourself opera como um modelo livre de ajustes, permitindo que todos os usuários aproveitem um framework compartilhado sem ajustes individualizados. Além disso, trabalhos anteriores enfrentaram desafios ao equilibrar a preservação de identidade, seguir instruções complexas e preservar boa qualidade visual, resultando em modelos com forte efeito de copiar e colar das imagens de referência. Assim, eles dificilmente conseguem gerar imagens seguindo instruções que exigem mudanças significativas na imagem de referência, como mudar a expressão facial, poses de cabeça e corpo, e a diversidade das imagens geradas é baixa. Para lidar com essas limitações, nosso método proposto introduz 1) um novo mecanismo de geração de dados sintéticos em pares para incentivar a diversidade de imagens, 2) uma arquitetura de atenção totalmente paralela com três codificadores de texto e um codificador de visão totalmente treinável para melhorar a fidelidade ao texto, e 3) uma metodologia inovadora de ajuste fino em múltiplos estágios de grosso a fino que gradualmente eleva o limite da qualidade visual. Nosso estudo demonstra que o Imagine yourself supera o modelo de personalização de ponta, exibindo capacidades superiores em preservação de identidade, qualidade visual e alinhamento de texto. Este modelo estabelece uma base robusta para várias aplicações de personalização. Resultados de avaliação humana validam a superioridade do modelo em relação a todos os aspectos (preservação de identidade, fidelidade ao texto e apelo visual) em comparação com os modelos de personalização anteriores.
English
Diffusion models have demonstrated remarkable efficacy across various
image-to-image tasks. In this research, we introduce Imagine yourself, a
state-of-the-art model designed for personalized image generation. Unlike
conventional tuning-based personalization techniques, Imagine yourself operates
as a tuning-free model, enabling all users to leverage a shared framework
without individualized adjustments. Moreover, previous work met challenges
balancing identity preservation, following complex prompts and preserving good
visual quality, resulting in models having strong copy-paste effect of the
reference images. Thus, they can hardly generate images following prompts that
require significant changes to the reference image, \eg, changing facial
expression, head and body poses, and the diversity of the generated images is
low. To address these limitations, our proposed method introduces 1) a new
synthetic paired data generation mechanism to encourage image diversity, 2) a
fully parallel attention architecture with three text encoders and a fully
trainable vision encoder to improve the text faithfulness, and 3) a novel
coarse-to-fine multi-stage finetuning methodology that gradually pushes the
boundary of visual quality. Our study demonstrates that Imagine yourself
surpasses the state-of-the-art personalization model, exhibiting superior
capabilities in identity preservation, visual quality, and text alignment. This
model establishes a robust foundation for various personalization applications.
Human evaluation results validate the model's SOTA superiority across all
aspects (identity preservation, text faithfulness, and visual appeal) compared
to the previous personalization models.Summary
AI-Generated Summary