Immagina: Generazione di Immagini Personalizzate Senza Regolazioni.Imagine yourself: Tuning-Free Personalized Image Generation
I modelli di diffusione hanno dimostrato una notevole efficacia in varie attività di immagine per immagine. In questa ricerca, presentiamo Imagine yourself, un modello all'avanguardia progettato per la generazione personalizzata di immagini. A differenza delle tecniche di personalizzazione basate sul tuning convenzionale, Imagine yourself funziona come un modello senza tuning, consentendo a tutti gli utenti di sfruttare un framework condiviso senza aggiustamenti individualizzati. Inoltre, il lavoro precedente ha affrontato sfide nel bilanciare la conservazione dell'identità, nel seguire prompt complessi e nel preservare una buona qualità visiva, che ha portato a modelli con un forte effetto copia-incolla delle immagini di riferimento. Di conseguenza, è difficile che generino immagini seguendo prompt che richiedono cambi significativi rispetto all'immagine di riferimento, ad esempio cambiamenti di espressione facciale, pose della testa e del corpo, e la diversità delle immagini generate è bassa. Per affrontare queste limitazioni, il nostro metodo proposto introduce 1) un nuovo meccanismo di generazione di dati sintetici accoppiati per incoraggiare la diversità delle immagini, 2) un'architettura di attenzione completamente parallela con tre encoder di testo e un vision encoder completamente addestrabile per migliorare la fedeltà al testo, e 3) una nuova metodologia di fine-tuning multi-stadio da grezzo a dettagliato che spinge gradualmente i confini della qualità visiva. Il nostro studio dimostra che Imagine yourself supera il modello di personalizzazione all'avanguardia, mostrando capacità superiori nella conservazione dell'identità, nella qualità visiva e nell'allineamento del testo. Questo modello stabilisce una solida base per varie applicazioni di personalizzazione. I risultati della valutazione umana convalidano la superiorità SOTA del modello su tutti gli aspetti (conservazione dell'identità, fedeltà al testo e attrattiva visiva) rispetto ai modelli di personalizzazione precedenti.