Generazione Consistente di Immagini da Testo Senza Addestramento
Training-Free Consistent Text-to-Image Generation
February 5, 2024
Autori: Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon
cs.AI
Abstract
I modelli text-to-image offrono un nuovo livello di flessibilità creativa, consentendo agli utenti di guidare il processo di generazione delle immagini attraverso il linguaggio naturale. Tuttavia, utilizzare questi modelli per rappresentare in modo coerente lo stesso soggetto attraverso prompt diversi rimane una sfida. Gli approcci esistenti perfezionano il modello per insegnargli nuove parole che descrivono specifici soggetti forniti dall'utente o aggiungono il condizionamento delle immagini al modello. Questi metodi richiedono un'ottimizzazione lunga e specifica per ogni soggetto o un pre-addestramento su larga scala. Inoltre, faticano ad allineare le immagini generate con i prompt testuali e incontrano difficoltà nel rappresentare più soggetti. Qui presentiamo ConsiStory, un approccio senza addestramento che abilita la generazione coerente di soggetti condividendo le attivazioni interne del modello pre-addestrato. Introduciamo un blocco di attenzione condivisa guidato dal soggetto e un'iniezione di caratteristiche basata sulla corrispondenza per promuovere la coerenza del soggetto tra le immagini. Inoltre, sviluppiamo strategie per incoraggiare la diversità del layout mantenendo la coerenza del soggetto. Confrontiamo ConsiStory con una gamma di baseline e dimostriamo prestazioni all'avanguardia nella coerenza del soggetto e nell'allineamento del testo, senza richiedere un singolo passo di ottimizzazione. Infine, ConsiStory può estendersi naturalmente a scenari con più soggetti e persino abilitare la personalizzazione senza addestramento per oggetti comuni.
English
Text-to-image models offer a new level of creative flexibility by allowing
users to guide the image generation process through natural language. However,
using these models to consistently portray the same subject across diverse
prompts remains challenging. Existing approaches fine-tune the model to teach
it new words that describe specific user-provided subjects or add image
conditioning to the model. These methods require lengthy per-subject
optimization or large-scale pre-training. Moreover, they struggle to align
generated images with text prompts and face difficulties in portraying multiple
subjects. Here, we present ConsiStory, a training-free approach that enables
consistent subject generation by sharing the internal activations of the
pretrained model. We introduce a subject-driven shared attention block and
correspondence-based feature injection to promote subject consistency between
images. Additionally, we develop strategies to encourage layout diversity while
maintaining subject consistency. We compare ConsiStory to a range of baselines,
and demonstrate state-of-the-art performance on subject consistency and text
alignment, without requiring a single optimization step. Finally, ConsiStory
can naturally extend to multi-subject scenarios, and even enable training-free
personalization for common objects.