Immagina: Generazione di Immagini Personalizzate Senza Regolazioni.
Imagine yourself: Tuning-Free Personalized Image Generation
September 20, 2024
Autori: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha
cs.AI
Abstract
I modelli di diffusione hanno dimostrato una notevole efficacia in varie attività di immagine per immagine. In questa ricerca, presentiamo Imagine yourself, un modello all'avanguardia progettato per la generazione personalizzata di immagini. A differenza delle tecniche di personalizzazione basate sul tuning convenzionale, Imagine yourself funziona come un modello senza tuning, consentendo a tutti gli utenti di sfruttare un framework condiviso senza aggiustamenti individualizzati. Inoltre, il lavoro precedente ha affrontato sfide nel bilanciare la conservazione dell'identità, nel seguire prompt complessi e nel preservare una buona qualità visiva, che ha portato a modelli con un forte effetto copia-incolla delle immagini di riferimento. Di conseguenza, è difficile che generino immagini seguendo prompt che richiedono cambi significativi rispetto all'immagine di riferimento, ad esempio cambiamenti di espressione facciale, pose della testa e del corpo, e la diversità delle immagini generate è bassa. Per affrontare queste limitazioni, il nostro metodo proposto introduce 1) un nuovo meccanismo di generazione di dati sintetici accoppiati per incoraggiare la diversità delle immagini, 2) un'architettura di attenzione completamente parallela con tre encoder di testo e un vision encoder completamente addestrabile per migliorare la fedeltà al testo, e 3) una nuova metodologia di fine-tuning multi-stadio da grezzo a dettagliato che spinge gradualmente i confini della qualità visiva. Il nostro studio dimostra che Imagine yourself supera il modello di personalizzazione all'avanguardia, mostrando capacità superiori nella conservazione dell'identità, nella qualità visiva e nell'allineamento del testo. Questo modello stabilisce una solida base per varie applicazioni di personalizzazione. I risultati della valutazione umana convalidano la superiorità SOTA del modello su tutti gli aspetti (conservazione dell'identità, fedeltà al testo e attrattiva visiva) rispetto ai modelli di personalizzazione precedenti.
English
Diffusion models have demonstrated remarkable efficacy across various
image-to-image tasks. In this research, we introduce Imagine yourself, a
state-of-the-art model designed for personalized image generation. Unlike
conventional tuning-based personalization techniques, Imagine yourself operates
as a tuning-free model, enabling all users to leverage a shared framework
without individualized adjustments. Moreover, previous work met challenges
balancing identity preservation, following complex prompts and preserving good
visual quality, resulting in models having strong copy-paste effect of the
reference images. Thus, they can hardly generate images following prompts that
require significant changes to the reference image, \eg, changing facial
expression, head and body poses, and the diversity of the generated images is
low. To address these limitations, our proposed method introduces 1) a new
synthetic paired data generation mechanism to encourage image diversity, 2) a
fully parallel attention architecture with three text encoders and a fully
trainable vision encoder to improve the text faithfulness, and 3) a novel
coarse-to-fine multi-stage finetuning methodology that gradually pushes the
boundary of visual quality. Our study demonstrates that Imagine yourself
surpasses the state-of-the-art personalization model, exhibiting superior
capabilities in identity preservation, visual quality, and text alignment. This
model establishes a robust foundation for various personalization applications.
Human evaluation results validate the model's SOTA superiority across all
aspects (identity preservation, text faithfulness, and visual appeal) compared
to the previous personalization models.Summary
AI-Generated Summary