TaleCrafter: Interactieve Storyvisualisatie met Meerdere Personages
TaleCrafter: Interactive Story Visualization with Multiple Characters
May 29, 2023
Auteurs: Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang
cs.AI
Samenvatting
Accurate storyvisualisatie vereist verschillende noodzakelijke elementen, zoals
identiteitsconsistentie tussen frames, de afstemming tussen platte tekst en visuele
inhoud, en een redelijke opmaak van objecten in afbeeldingen. De meeste eerdere werken
streven ernaar om aan deze vereisten te voldoen door een tekst-naar-beeld (T2I) model aan te passen op een
set video's in dezelfde stijl en met dezelfde personages, bijvoorbeeld de
FlintstonesSV dataset. De geleerde T2I-modellen hebben echter doorgaans moeite om
zich aan te passen aan nieuwe personages, scènes en stijlen, en missen vaak de flexibiliteit om
de opmaak van de gesynthetiseerde afbeeldingen te herzien. Dit artikel stelt een systeem voor
voor generieke interactieve storyvisualisatie, dat in staat is om meerdere nieuwe
personages te verwerken en het bewerken van opmaak en lokale structuur te ondersteunen. Het is
ontwikkeld door gebruik te maken van de voorkennis van grote taal- en T2I-modellen,
getraind op enorme corpora. Het systeem bestaat uit vier onderling verbonden
componenten: story-naar-prompt generatie (S2P), tekst-naar-opmaak generatie (T2L),
controleerbare tekst-naar-beeld generatie (C-T2I), en beeld-naar-video animatie
(I2V). Eerst zet de S2P-module beknopte verhaalinformatie om in gedetailleerde
prompts die vereist zijn voor de vervolgfasen. Vervolgens genereert T2L diverse en
redelijke opmaken op basis van de prompts, waarbij gebruikers de mogelijkheid krijgen om de
opmaak aan te passen en te verfijnen naar hun voorkeur. De kerncomponent, C-T2I, maakt het
mogelijk om afbeeldingen te creëren die worden geleid door opmaken, schetsen en acteurspecifieke
identificatoren om consistentie en detail in visualisaties te behouden. Ten slotte
verrijkt I2V het visualisatieproces door de gegenereerde afbeeldingen te animeren.
Uitgebreide experimenten en een gebruikersstudie worden uitgevoerd om de
effectiviteit en flexibiliteit van interactief bewerken van het voorgestelde systeem te valideren.
English
Accurate Story visualization requires several necessary elements, such as
identity consistency across frames, the alignment between plain text and visual
content, and a reasonable layout of objects in images. Most previous works
endeavor to meet these requirements by fitting a text-to-image (T2I) model on a
set of videos in the same style and with the same characters, e.g., the
FlintstonesSV dataset. However, the learned T2I models typically struggle to
adapt to new characters, scenes, and styles, and often lack the flexibility to
revise the layout of the synthesized images. This paper proposes a system for
generic interactive story visualization, capable of handling multiple novel
characters and supporting the editing of layout and local structure. It is
developed by leveraging the prior knowledge of large language and T2I models,
trained on massive corpora. The system comprises four interconnected
components: story-to-prompt generation (S2P), text-to-layout generation (T2L),
controllable text-to-image generation (C-T2I), and image-to-video animation
(I2V). First, the S2P module converts concise story information into detailed
prompts required for subsequent stages. Next, T2L generates diverse and
reasonable layouts based on the prompts, offering users the ability to adjust
and refine the layout to their preference. The core component, C-T2I, enables
the creation of images guided by layouts, sketches, and actor-specific
identifiers to maintain consistency and detail across visualizations. Finally,
I2V enriches the visualization process by animating the generated images.
Extensive experiments and a user study are conducted to validate the
effectiveness and flexibility of interactive editing of the proposed system.