TaleCrafter: Visualización Interactiva de Historias con Múltiples Personajes
TaleCrafter: Interactive Story Visualization with Multiple Characters
May 29, 2023
Autores: Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang
cs.AI
Resumen
La visualización precisa de historias requiere varios elementos necesarios, como la consistencia de identidad entre los fotogramas, la alineación entre el texto plano y el contenido visual, y una disposición razonable de los objetos en las imágenes. La mayoría de los trabajos anteriores se esfuerzan por cumplir estos requisitos ajustando un modelo de texto a imagen (T2I) en un conjunto de videos con el mismo estilo y los mismos personajes, por ejemplo, el conjunto de datos FlintstonesSV. Sin embargo, los modelos T2I aprendidos suelen tener dificultades para adaptarse a nuevos personajes, escenas y estilos, y a menudo carecen de la flexibilidad para revisar la disposición de las imágenes sintetizadas. Este artículo propone un sistema para la visualización interactiva genérica de historias, capaz de manejar múltiples personajes nuevos y admitir la edición de la disposición y la estructura local. Se desarrolla aprovechando el conocimiento previo de modelos de lenguaje grande y T2I, entrenados en corpus masivos. El sistema consta de cuatro componentes interconectados: generación de historia a prompt (S2P), generación de texto a disposición (T2L), generación controlable de texto a imagen (C-T2I) y animación de imagen a video (I2V). Primero, el módulo S2P convierte la información concisa de la historia en prompts detallados requeridos para las etapas posteriores. A continuación, T2L genera disposiciones diversas y razonables basadas en los prompts, ofreciendo a los usuarios la capacidad de ajustar y refinar la disposición según su preferencia. El componente central, C-T2I, permite la creación de imágenes guiadas por disposiciones, bocetos e identificadores específicos de actores para mantener la consistencia y el detalle en las visualizaciones. Finalmente, I2V enriquece el proceso de visualización animando las imágenes generadas. Se realizan experimentos extensos y un estudio de usuario para validar la efectividad y flexibilidad de la edición interactiva del sistema propuesto.
English
Accurate Story visualization requires several necessary elements, such as
identity consistency across frames, the alignment between plain text and visual
content, and a reasonable layout of objects in images. Most previous works
endeavor to meet these requirements by fitting a text-to-image (T2I) model on a
set of videos in the same style and with the same characters, e.g., the
FlintstonesSV dataset. However, the learned T2I models typically struggle to
adapt to new characters, scenes, and styles, and often lack the flexibility to
revise the layout of the synthesized images. This paper proposes a system for
generic interactive story visualization, capable of handling multiple novel
characters and supporting the editing of layout and local structure. It is
developed by leveraging the prior knowledge of large language and T2I models,
trained on massive corpora. The system comprises four interconnected
components: story-to-prompt generation (S2P), text-to-layout generation (T2L),
controllable text-to-image generation (C-T2I), and image-to-video animation
(I2V). First, the S2P module converts concise story information into detailed
prompts required for subsequent stages. Next, T2L generates diverse and
reasonable layouts based on the prompts, offering users the ability to adjust
and refine the layout to their preference. The core component, C-T2I, enables
the creation of images guided by layouts, sketches, and actor-specific
identifiers to maintain consistency and detail across visualizations. Finally,
I2V enriches the visualization process by animating the generated images.
Extensive experiments and a user study are conducted to validate the
effectiveness and flexibility of interactive editing of the proposed system.