AutoStory: Diverse Storytellingbeelden Genereren met Minimale Menselijke Inspanning
AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort
November 19, 2023
Auteurs: Wen Wang, Canyu Zhao, Hao Chen, Zhekai Chen, Kecheng Zheng, Chunhua Shen
cs.AI
Samenvatting
Storyvisualisatie heeft als doel een reeks afbeeldingen te genereren die overeenkomen met het verhaal dat in teksten wordt beschreven, waarbij de gegenereerde afbeeldingen van hoge kwaliteit moeten zijn, moeten aansluiten bij de tekstbeschrijving en consistent moeten zijn in de identiteit van personages. Gezien de complexiteit van storyvisualisatie vereenvoudigen bestaande methoden het probleem drastisch door slechts een paar specifieke personages en scenario's te overwegen, of door gebruikers te vragen om per afbeelding controlecondities te verstrekken, zoals schetsen. Deze vereenvoudigingen maken deze methoden echter ongeschikt voor echte toepassingen. Daarom stellen we een geautomatiseerd storyvisualisatiesysteem voor dat effectief diverse, hoogwaardige en consistente sets van verhaalafbeeldingen kan genereren, met minimale menselijke interactie. Specifiek maken we gebruik van het begrip en de planningscapaciteiten van grote taalmodellen voor lay-outplanning, en benutten we grootschalige tekst-naar-afbeeldingmodellen om verfijnde verhaalafbeeldingen te genereren op basis van de lay-out. Empirisch hebben we vastgesteld dat spaarzame controlecondities, zoals begrenzingsvakken, geschikt zijn voor lay-outplanning, terwijl dichte controlecondities, zoals schetsen en keypoints, geschikt zijn voor het genereren van hoogwaardige afbeeldingsinhoud. Om het beste van beide werelden te verkrijgen, hebben we een module voor het genereren van dichte condities ontwikkeld die eenvoudige lay-outs van begrenzingsvakken omzet in schets- of keypointcontrolecondities voor de uiteindelijke afbeeldingsgeneratie, wat niet alleen de beeldkwaliteit verbetert, maar ook gemakkelijke en intuïtieve gebruikersinteracties mogelijk maakt. Daarnaast stellen we een eenvoudige maar effectieve methode voor om multi-view consistente personageafbeeldingen te genereren, waardoor de afhankelijkheid van menselijke arbeid om personageafbeeldingen te verzamelen of te tekenen wordt geëlimineerd.
English
Story visualization aims to generate a series of images that match the story
described in texts, and it requires the generated images to satisfy high
quality, alignment with the text description, and consistency in character
identities. Given the complexity of story visualization, existing methods
drastically simplify the problem by considering only a few specific characters
and scenarios, or requiring the users to provide per-image control conditions
such as sketches. However, these simplifications render these methods
incompetent for real applications. To this end, we propose an automated story
visualization system that can effectively generate diverse, high-quality, and
consistent sets of story images, with minimal human interactions. Specifically,
we utilize the comprehension and planning capabilities of large language models
for layout planning, and then leverage large-scale text-to-image models to
generate sophisticated story images based on the layout. We empirically find
that sparse control conditions, such as bounding boxes, are suitable for layout
planning, while dense control conditions, e.g., sketches and keypoints, are
suitable for generating high-quality image content. To obtain the best of both
worlds, we devise a dense condition generation module to transform simple
bounding box layouts into sketch or keypoint control conditions for final image
generation, which not only improves the image quality but also allows easy and
intuitive user interactions. In addition, we propose a simple yet effective
method to generate multi-view consistent character images, eliminating the
reliance on human labor to collect or draw character images.