AutoStory: Diverse Storytellingbeelden Genereren met Minimale Menselijke Inspanning

Samenvatting

Storyvisualisatie heeft als doel een reeks afbeeldingen te genereren die overeenkomen met het verhaal dat in teksten wordt beschreven, waarbij de gegenereerde afbeeldingen van hoge kwaliteit moeten zijn, moeten aansluiten bij de tekstbeschrijving en consistent moeten zijn in de identiteit van personages. Gezien de complexiteit van storyvisualisatie vereenvoudigen bestaande methoden het probleem drastisch door slechts een paar specifieke personages en scenario's te overwegen, of door gebruikers te vragen om per afbeelding controlecondities te verstrekken, zoals schetsen. Deze vereenvoudigingen maken deze methoden echter ongeschikt voor echte toepassingen. Daarom stellen we een geautomatiseerd storyvisualisatiesysteem voor dat effectief diverse, hoogwaardige en consistente sets van verhaalafbeeldingen kan genereren, met minimale menselijke interactie. Specifiek maken we gebruik van het begrip en de planningscapaciteiten van grote taalmodellen voor lay-outplanning, en benutten we grootschalige tekst-naar-afbeeldingmodellen om verfijnde verhaalafbeeldingen te genereren op basis van de lay-out. Empirisch hebben we vastgesteld dat spaarzame controlecondities, zoals begrenzingsvakken, geschikt zijn voor lay-outplanning, terwijl dichte controlecondities, zoals schetsen en keypoints, geschikt zijn voor het genereren van hoogwaardige afbeeldingsinhoud. Om het beste van beide werelden te verkrijgen, hebben we een module voor het genereren van dichte condities ontwikkeld die eenvoudige lay-outs van begrenzingsvakken omzet in schets- of keypointcontrolecondities voor de uiteindelijke afbeeldingsgeneratie, wat niet alleen de beeldkwaliteit verbetert, maar ook gemakkelijke en intuïtieve gebruikersinteracties mogelijk maakt. Daarnaast stellen we een eenvoudige maar effectieve methode voor om multi-view consistente personageafbeeldingen te genereren, waardoor de afhankelijkheid van menselijke arbeid om personageafbeeldingen te verzamelen of te tekenen wordt geëlimineerd.

English

Story visualization aims to generate a series of images that match the story described in texts, and it requires the generated images to satisfy high quality, alignment with the text description, and consistency in character identities. Given the complexity of story visualization, existing methods drastically simplify the problem by considering only a few specific characters and scenarios, or requiring the users to provide per-image control conditions such as sketches. However, these simplifications render these methods incompetent for real applications. To this end, we propose an automated story visualization system that can effectively generate diverse, high-quality, and consistent sets of story images, with minimal human interactions. Specifically, we utilize the comprehension and planning capabilities of large language models for layout planning, and then leverage large-scale text-to-image models to generate sophisticated story images based on the layout. We empirically find that sparse control conditions, such as bounding boxes, are suitable for layout planning, while dense control conditions, e.g., sketches and keypoints, are suitable for generating high-quality image content. To obtain the best of both worlds, we devise a dense condition generation module to transform simple bounding box layouts into sketch or keypoint control conditions for final image generation, which not only improves the image quality but also allows easy and intuitive user interactions. In addition, we propose a simple yet effective method to generate multi-view consistent character images, eliminating the reliance on human labor to collect or draw character images.

AutoStory: Diverse Storytellingbeelden Genereren met Minimale Menselijke Inspanning

AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort

Samenvatting

Support