AutoStory: Erzeugung vielfältiger erzählerischer Bilder mit minimalem menschlichem Aufwand
AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort
November 19, 2023
Autoren: Wen Wang, Canyu Zhao, Hao Chen, Zhekai Chen, Kecheng Zheng, Chunhua Shen
cs.AI
Zusammenfassung
Story Visualization zielt darauf ab, eine Reihe von Bildern zu generieren, die der in Texten beschriebenen Geschichte entsprechen, wobei die generierten Bilder hohe Qualität, Übereinstimmung mit der Textbeschreibung und Konsistenz in den Charakteridentitäten aufweisen müssen. Angesichts der Komplexität der Story Visualization vereinfachen bestehende Methoden das Problem drastisch, indem sie nur wenige spezifische Charaktere und Szenarien berücksichtigen oder von den Benutzern pro-Bild-Kontrollbedingungen wie Skizzen verlangen. Diese Vereinfachungen machen diese Methoden jedoch für reale Anwendungen ungeeignet. Daher schlagen wir ein automatisiertes Story-Visualisierungssystem vor, das effektiv diverse, hochwertige und konsistente Sets von Story-Bildern mit minimaler menschlicher Interaktion generieren kann. Konkret nutzen wir die Verständnis- und Planungsfähigkeiten großer Sprachmodelle für die Layoutplanung und setzen dann großskalige Text-zu-Bild-Modelle ein, um anspruchsvolle Story-Bilder basierend auf dem Layout zu generieren. Empirisch stellen wir fest, dass spärliche Kontrollbedingungen wie Begrenzungsrahmen für die Layoutplanung geeignet sind, während dichte Kontrollbedingungen, z.B. Skizzen und Keypoints, für die Generierung hochwertiger Bildinhalte geeignet sind. Um das Beste aus beiden Welten zu erhalten, entwickeln wir ein Modul zur Generierung dichter Bedingungen, das einfache Begrenzungsrahmenlayouts in Skizzen- oder Keypoint-Kontrollbedingungen für die endgültige Bildgenerierung umwandelt, was nicht nur die Bildqualität verbessert, sondern auch einfache und intuitive Benutzerinteraktionen ermöglicht. Darüber hinaus schlagen wir eine einfache, aber effektive Methode zur Generierung von konsistenten Charakterbildern aus mehreren Blickwinkeln vor, die die Abhängigkeit von menschlicher Arbeit zur Sammlung oder Zeichnung von Charakterbildern beseitigt.
English
Story visualization aims to generate a series of images that match the story
described in texts, and it requires the generated images to satisfy high
quality, alignment with the text description, and consistency in character
identities. Given the complexity of story visualization, existing methods
drastically simplify the problem by considering only a few specific characters
and scenarios, or requiring the users to provide per-image control conditions
such as sketches. However, these simplifications render these methods
incompetent for real applications. To this end, we propose an automated story
visualization system that can effectively generate diverse, high-quality, and
consistent sets of story images, with minimal human interactions. Specifically,
we utilize the comprehension and planning capabilities of large language models
for layout planning, and then leverage large-scale text-to-image models to
generate sophisticated story images based on the layout. We empirically find
that sparse control conditions, such as bounding boxes, are suitable for layout
planning, while dense control conditions, e.g., sketches and keypoints, are
suitable for generating high-quality image content. To obtain the best of both
worlds, we devise a dense condition generation module to transform simple
bounding box layouts into sketch or keypoint control conditions for final image
generation, which not only improves the image quality but also allows easy and
intuitive user interactions. In addition, we propose a simple yet effective
method to generate multi-view consistent character images, eliminating the
reliance on human labor to collect or draw character images.