ChatPaper.aiChatPaper

TaleCrafter: Interaktive Geschichtsvisualisierung mit mehreren Charakteren

TaleCrafter: Interactive Story Visualization with Multiple Characters

May 29, 2023
Autoren: Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang
cs.AI

Zusammenfassung

Eine präzise Story-Visualisierung erfordert mehrere notwendige Elemente, wie z.B. die Identitätskonsistenz über verschiedene Frames hinweg, die Ausrichtung zwischen Klartext und visuellem Inhalt sowie eine sinnvolle Anordnung von Objekten in den Bildern. Die meisten bisherigen Arbeiten versuchen, diese Anforderungen zu erfüllen, indem sie ein Text-zu-Bild (T2I)-Modell auf eine Reihe von Videos im gleichen Stil und mit denselben Charakteren anpassen, z.B. den FlintstonesSV-Datensatz. Die trainierten T2I-Modelle haben jedoch typischerweise Schwierigkeiten, sich an neue Charaktere, Szenen und Stile anzupassen, und es fehlt ihnen oft die Flexibilität, die Anordnung der synthetisierten Bilder zu überarbeiten. Dieses Papier schlägt ein System für die generische interaktive Story-Visualisierung vor, das in der Lage ist, mehrere neue Charaktere zu verarbeiten und die Bearbeitung von Layout und lokaler Struktur zu unterstützen. Es wird entwickelt, indem das Vorwissen großer Sprach- und T2I-Modelle, die auf umfangreichen Korpora trainiert wurden, genutzt wird. Das System besteht aus vier miteinander verbundenen Komponenten: Story-zu-Prompt-Generierung (S2P), Text-zu-Layout-Generierung (T2L), kontrollierbare Text-zu-Bild-Generierung (C-T2I) und Bild-zu-Video-Animation (I2V). Zunächst wandelt das S2P-Model prägnante Story-Informationen in detaillierte Prompts um, die für die nachfolgenden Stufen erforderlich sind. Anschließend generiert T2L vielfältige und sinnvolle Layouts basierend auf den Prompts und bietet Benutzern die Möglichkeit, das Layout nach ihren Vorlieben anzupassen und zu verfeinern. Die Kernkomponente, C-T2I, ermöglicht die Erstellung von Bildern, die durch Layouts, Skizzen und charakterspezifische Identifikatoren gesteuert werden, um Konsistenz und Detailtreue in den Visualisierungen zu gewährleisten. Schließlich bereichert I2V den Visualisierungsprozess, indem es die generierten Bilder animiert. Umfangreiche Experimente und eine Benutzerstudie werden durchgeführt, um die Wirksamkeit und Flexibilität der interaktiven Bearbeitung des vorgeschlagenen Systems zu validieren.
English
Accurate Story visualization requires several necessary elements, such as identity consistency across frames, the alignment between plain text and visual content, and a reasonable layout of objects in images. Most previous works endeavor to meet these requirements by fitting a text-to-image (T2I) model on a set of videos in the same style and with the same characters, e.g., the FlintstonesSV dataset. However, the learned T2I models typically struggle to adapt to new characters, scenes, and styles, and often lack the flexibility to revise the layout of the synthesized images. This paper proposes a system for generic interactive story visualization, capable of handling multiple novel characters and supporting the editing of layout and local structure. It is developed by leveraging the prior knowledge of large language and T2I models, trained on massive corpora. The system comprises four interconnected components: story-to-prompt generation (S2P), text-to-layout generation (T2L), controllable text-to-image generation (C-T2I), and image-to-video animation (I2V). First, the S2P module converts concise story information into detailed prompts required for subsequent stages. Next, T2L generates diverse and reasonable layouts based on the prompts, offering users the ability to adjust and refine the layout to their preference. The core component, C-T2I, enables the creation of images guided by layouts, sketches, and actor-specific identifiers to maintain consistency and detail across visualizations. Finally, I2V enriches the visualization process by animating the generated images. Extensive experiments and a user study are conducted to validate the effectiveness and flexibility of interactive editing of the proposed system.
PDF40December 15, 2024