ChatPaper.aiChatPaper

De Uitverkorene: Consistente Karakters in Text-naar-Beeld Diffusiemodellen

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

November 16, 2023
Auteurs: Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI

Samenvatting

Recente vooruitgang in tekst-naar-beeld generatiemodellen heeft een enorme potentie voor visuele creativiteit ontsloten. Deze modellen hebben echter moeite met het genereren van consistente personages, een cruciaal aspect voor tal van real-world toepassingen zoals storyvisualisatie, assetdesign voor spelontwikkeling, reclame, en meer. Huidige methoden zijn doorgaans afhankelijk van meerdere bestaande afbeeldingen van het doelpersonage of vereisen arbeidsintensieve handmatige processen. In dit werk stellen we een volledig geautomatiseerde oplossing voor voor het genereren van consistente personages, waarbij de enige input een tekstprompt is. We introduceren een iteratief proces dat in elke fase een coherente set afbeeldingen identificeert die een vergelijkbare identiteit delen en hieruit een consistentere identiteit extraheert. Onze kwantitatieve analyse toont aan dat onze methode een betere balans vindt tussen promptafstemming en identiteitsconsistentie in vergelijking met de baseline-methoden, en deze bevindingen worden ondersteund door een gebruikersstudie. Tot slot demonstreren we verschillende praktische toepassingen van onze aanpak. De projectpagina is beschikbaar op https://omriavrahami.com/the-chosen-one.
English
Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, these models struggle with generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. Project page is available at https://omriavrahami.com/the-chosen-one
PDF599December 15, 2024