Immagina: Generazione di Immagini Personalizzate Senza Regolazioni.

Abstract

I modelli di diffusione hanno dimostrato una notevole efficacia in varie attività di immagine per immagine. In questa ricerca, presentiamo Imagine yourself, un modello all'avanguardia progettato per la generazione personalizzata di immagini. A differenza delle tecniche di personalizzazione basate sul tuning convenzionale, Imagine yourself funziona come un modello senza tuning, consentendo a tutti gli utenti di sfruttare un framework condiviso senza aggiustamenti individualizzati. Inoltre, il lavoro precedente ha affrontato sfide nel bilanciare la conservazione dell'identità, nel seguire prompt complessi e nel preservare una buona qualità visiva, che ha portato a modelli con un forte effetto copia-incolla delle immagini di riferimento. Di conseguenza, è difficile che generino immagini seguendo prompt che richiedono cambi significativi rispetto all'immagine di riferimento, ad esempio cambiamenti di espressione facciale, pose della testa e del corpo, e la diversità delle immagini generate è bassa. Per affrontare queste limitazioni, il nostro metodo proposto introduce 1) un nuovo meccanismo di generazione di dati sintetici accoppiati per incoraggiare la diversità delle immagini, 2) un'architettura di attenzione completamente parallela con tre encoder di testo e un vision encoder completamente addestrabile per migliorare la fedeltà al testo, e 3) una nuova metodologia di fine-tuning multi-stadio da grezzo a dettagliato che spinge gradualmente i confini della qualità visiva. Il nostro studio dimostra che Imagine yourself supera il modello di personalizzazione all'avanguardia, mostrando capacità superiori nella conservazione dell'identità, nella qualità visiva e nell'allineamento del testo. Questo modello stabilisce una solida base per varie applicazioni di personalizzazione. I risultati della valutazione umana convalidano la superiorità SOTA del modello su tutti gli aspetti (conservazione dell'identità, fedeltà al testo e attrattiva visiva) rispetto ai modelli di personalizzazione precedenti.

English

Diffusion models have demonstrated remarkable efficacy across various image-to-image tasks. In this research, we introduce Imagine yourself, a state-of-the-art model designed for personalized image generation. Unlike conventional tuning-based personalization techniques, Imagine yourself operates as a tuning-free model, enabling all users to leverage a shared framework without individualized adjustments. Moreover, previous work met challenges balancing identity preservation, following complex prompts and preserving good visual quality, resulting in models having strong copy-paste effect of the reference images. Thus, they can hardly generate images following prompts that require significant changes to the reference image, \eg, changing facial expression, head and body poses, and the diversity of the generated images is low. To address these limitations, our proposed method introduces 1) a new synthetic paired data generation mechanism to encourage image diversity, 2) a fully parallel attention architecture with three text encoders and a fully trainable vision encoder to improve the text faithfulness, and 3) a novel coarse-to-fine multi-stage finetuning methodology that gradually pushes the boundary of visual quality. Our study demonstrates that Imagine yourself surpasses the state-of-the-art personalization model, exhibiting superior capabilities in identity preservation, visual quality, and text alignment. This model establishes a robust foundation for various personalization applications. Human evaluation results validate the model's SOTA superiority across all aspects (identity preservation, text faithfulness, and visual appeal) compared to the previous personalization models.

Immagina: Generazione di Immagini Personalizzate Senza Regolazioni.

Imagine yourself: Tuning-Free Personalized Image Generation

Abstract

Summary

Support

Support