Imagine-se: Geração de Imagens Personalizadas sem Ajustes.

Resumo

Os modelos de difusão têm demonstrado uma eficácia notável em várias tarefas de imagem para imagem. Nesta pesquisa, apresentamos Imagine yourself, um modelo de ponta projetado para geração de imagens personalizadas. Ao contrário das técnicas convencionais de personalização baseadas em ajustes, o Imagine yourself opera como um modelo livre de ajustes, permitindo que todos os usuários aproveitem um framework compartilhado sem ajustes individualizados. Além disso, trabalhos anteriores enfrentaram desafios ao equilibrar a preservação de identidade, seguir instruções complexas e preservar boa qualidade visual, resultando em modelos com forte efeito de copiar e colar das imagens de referência. Assim, eles dificilmente conseguem gerar imagens seguindo instruções que exigem mudanças significativas na imagem de referência, como mudar a expressão facial, poses de cabeça e corpo, e a diversidade das imagens geradas é baixa. Para lidar com essas limitações, nosso método proposto introduz 1) um novo mecanismo de geração de dados sintéticos em pares para incentivar a diversidade de imagens, 2) uma arquitetura de atenção totalmente paralela com três codificadores de texto e um codificador de visão totalmente treinável para melhorar a fidelidade ao texto, e 3) uma metodologia inovadora de ajuste fino em múltiplos estágios de grosso a fino que gradualmente eleva o limite da qualidade visual. Nosso estudo demonstra que o Imagine yourself supera o modelo de personalização de ponta, exibindo capacidades superiores em preservação de identidade, qualidade visual e alinhamento de texto. Este modelo estabelece uma base robusta para várias aplicações de personalização. Resultados de avaliação humana validam a superioridade do modelo em relação a todos os aspectos (preservação de identidade, fidelidade ao texto e apelo visual) em comparação com os modelos de personalização anteriores.

English

Diffusion models have demonstrated remarkable efficacy across various image-to-image tasks. In this research, we introduce Imagine yourself, a state-of-the-art model designed for personalized image generation. Unlike conventional tuning-based personalization techniques, Imagine yourself operates as a tuning-free model, enabling all users to leverage a shared framework without individualized adjustments. Moreover, previous work met challenges balancing identity preservation, following complex prompts and preserving good visual quality, resulting in models having strong copy-paste effect of the reference images. Thus, they can hardly generate images following prompts that require significant changes to the reference image, \eg, changing facial expression, head and body poses, and the diversity of the generated images is low. To address these limitations, our proposed method introduces 1) a new synthetic paired data generation mechanism to encourage image diversity, 2) a fully parallel attention architecture with three text encoders and a fully trainable vision encoder to improve the text faithfulness, and 3) a novel coarse-to-fine multi-stage finetuning methodology that gradually pushes the boundary of visual quality. Our study demonstrates that Imagine yourself surpasses the state-of-the-art personalization model, exhibiting superior capabilities in identity preservation, visual quality, and text alignment. This model establishes a robust foundation for various personalization applications. Human evaluation results validate the model's SOTA superiority across all aspects (identity preservation, text faithfulness, and visual appeal) compared to the previous personalization models.

Imagine-se: Geração de Imagens Personalizadas sem Ajustes.

Imagine yourself: Tuning-Free Personalized Image Generation

Resumo

Support