AutoStory: Erzeugung vielfältiger erzählerischer Bilder mit minimalem menschlichem Aufwand

papers.abstract

Story Visualization zielt darauf ab, eine Reihe von Bildern zu generieren, die der in Texten beschriebenen Geschichte entsprechen, wobei die generierten Bilder hohe Qualität, Übereinstimmung mit der Textbeschreibung und Konsistenz in den Charakteridentitäten aufweisen müssen. Angesichts der Komplexität der Story Visualization vereinfachen bestehende Methoden das Problem drastisch, indem sie nur wenige spezifische Charaktere und Szenarien berücksichtigen oder von den Benutzern pro-Bild-Kontrollbedingungen wie Skizzen verlangen. Diese Vereinfachungen machen diese Methoden jedoch für reale Anwendungen ungeeignet. Daher schlagen wir ein automatisiertes Story-Visualisierungssystem vor, das effektiv diverse, hochwertige und konsistente Sets von Story-Bildern mit minimaler menschlicher Interaktion generieren kann. Konkret nutzen wir die Verständnis- und Planungsfähigkeiten großer Sprachmodelle für die Layoutplanung und setzen dann großskalige Text-zu-Bild-Modelle ein, um anspruchsvolle Story-Bilder basierend auf dem Layout zu generieren. Empirisch stellen wir fest, dass spärliche Kontrollbedingungen wie Begrenzungsrahmen für die Layoutplanung geeignet sind, während dichte Kontrollbedingungen, z.B. Skizzen und Keypoints, für die Generierung hochwertiger Bildinhalte geeignet sind. Um das Beste aus beiden Welten zu erhalten, entwickeln wir ein Modul zur Generierung dichter Bedingungen, das einfache Begrenzungsrahmenlayouts in Skizzen- oder Keypoint-Kontrollbedingungen für die endgültige Bildgenerierung umwandelt, was nicht nur die Bildqualität verbessert, sondern auch einfache und intuitive Benutzerinteraktionen ermöglicht. Darüber hinaus schlagen wir eine einfache, aber effektive Methode zur Generierung von konsistenten Charakterbildern aus mehreren Blickwinkeln vor, die die Abhängigkeit von menschlicher Arbeit zur Sammlung oder Zeichnung von Charakterbildern beseitigt.

English

Story visualization aims to generate a series of images that match the story described in texts, and it requires the generated images to satisfy high quality, alignment with the text description, and consistency in character identities. Given the complexity of story visualization, existing methods drastically simplify the problem by considering only a few specific characters and scenarios, or requiring the users to provide per-image control conditions such as sketches. However, these simplifications render these methods incompetent for real applications. To this end, we propose an automated story visualization system that can effectively generate diverse, high-quality, and consistent sets of story images, with minimal human interactions. Specifically, we utilize the comprehension and planning capabilities of large language models for layout planning, and then leverage large-scale text-to-image models to generate sophisticated story images based on the layout. We empirically find that sparse control conditions, such as bounding boxes, are suitable for layout planning, while dense control conditions, e.g., sketches and keypoints, are suitable for generating high-quality image content. To obtain the best of both worlds, we devise a dense condition generation module to transform simple bounding box layouts into sketch or keypoint control conditions for final image generation, which not only improves the image quality but also allows easy and intuitive user interactions. In addition, we propose a simple yet effective method to generate multi-view consistent character images, eliminating the reliance on human labor to collect or draw character images.

AutoStory: Erzeugung vielfältiger erzählerischer Bilder mit minimalem menschlichem Aufwand

AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort

papers.abstract

Support