ChatPaper.aiChatPaper

Der Auserwählte: Konsistente Charaktere in Text-zu-Bild-Diffusionsmodellen

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

November 16, 2023
Autoren: Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI

Zusammenfassung

Jüngste Fortschritte in Text-zu-Bild-Generierungsmodellen haben ein enormes Potenzial für visuelle Kreativität freigesetzt. Allerdings haben diese Modelle Schwierigkeiten bei der Erzeugung konsistenter Charaktere, einem entscheidenden Aspekt für zahlreiche reale Anwendungen wie die Visualisierung von Geschichten, das Design von Assets für die Spieleentwicklung, Werbung und mehr. Aktuelle Methoden stützen sich typischerweise auf mehrere bereits vorhandene Bilder des Zielcharakters oder beinhalten arbeitsintensive manuelle Prozesse. In dieser Arbeit schlagen wir eine vollständig automatisierte Lösung für die konsistente Charaktergenerierung vor, bei der die einzige Eingabe ein Textprompt ist. Wir führen ein iteratives Verfahren ein, das in jeder Phase eine kohärente Gruppe von Bildern identifiziert, die eine ähnliche Identität teilen, und aus dieser Gruppe eine konsistentere Identität extrahiert. Unsere quantitative Analyse zeigt, dass unsere Methode im Vergleich zu den Baseline-Methoden eine bessere Balance zwischen Prompt-Ausrichtung und Identitätskonsistenz erreicht, und diese Ergebnisse werden durch eine Benutzerstudie gestützt. Abschließend präsentieren wir mehrere praktische Anwendungen unseres Ansatzes. Die Projektseite ist unter https://omriavrahami.com/the-chosen-one verfügbar.
English
Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, these models struggle with generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. Project page is available at https://omriavrahami.com/the-chosen-one

Summary

AI-Generated Summary

PDF599December 15, 2024