Il Prescelto: Personaggi Coerenti nei Modelli di Diffusione da Testo a Immagine

Abstract

I recenti progressi nei modelli di generazione testo-immagine hanno sbloccato un vasto potenziale per la creatività visiva. Tuttavia, questi modelli incontrano difficoltà nella generazione di personaggi consistenti, un aspetto cruciale per numerose applicazioni nel mondo reale come la visualizzazione di storie, la progettazione di asset per lo sviluppo di giochi, la pubblicità e altro ancora. I metodi attuali si basano tipicamente su più immagini preesistenti del personaggio target o implicano processi manuali laboriosi. In questo lavoro, proponiamo una soluzione completamente automatizzata per la generazione di personaggi consistenti, con l'unico input rappresentato da un prompt testuale. Introduciamo una procedura iterativa che, in ogni fase, identifica un insieme coerente di immagini che condividono un'identità simile ed estrae un'identità più consistente da questo insieme. La nostra analisi quantitativa dimostra che il nostro metodo raggiunge un migliore equilibrio tra allineamento al prompt e consistenza dell'identità rispetto ai metodi di base, e questi risultati sono rafforzati da uno studio condotto con utenti. Per concludere, mostriamo diverse applicazioni pratiche del nostro approccio. La pagina del progetto è disponibile all'indirizzo https://omriavrahami.com/the-chosen-one.

English

Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, these models struggle with generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. Project page is available at https://omriavrahami.com/the-chosen-one

Il Prescelto: Personaggi Coerenti nei Modelli di Diffusione da Testo a Immagine

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

Abstract

Support