TaleCrafter: Visualização Interativa de Histórias com Múltiplos Personagens
TaleCrafter: Interactive Story Visualization with Multiple Characters
May 29, 2023
Autores: Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang
cs.AI
Resumo
A visualização precisa de histórias requer vários elementos essenciais, como
consistência de identidade entre os quadros, alinhamento entre texto simples e
conteúdo visual, e um layout razoável dos objetos nas imagens. A maioria dos
trabalhos anteriores busca atender a esses requisitos ajustando um modelo de
texto para imagem (T2I) em um conjunto de vídeos com o mesmo estilo e os mesmos
personagens, por exemplo, o conjunto de dados FlintstonesSV. No entanto, os
modelos T2I aprendidos geralmente lutam para se adaptar a novos personagens,
cenários e estilos, e frequentemente carecem de flexibilidade para revisar o
layout das imagens sintetizadas. Este artigo propõe um sistema para
visualização interativa genérica de histórias, capaz de lidar com múltiplos
personagens novos e suportar a edição de layout e estrutura local. Ele é
desenvolvido aproveitando o conhecimento prévio de grandes modelos de linguagem
e T2I, treinados em corpora massivos. O sistema compreende quatro componentes
interconectados: geração de história para prompt (S2P), geração de texto para
layout (T2L), geração controlável de texto para imagem (C-T2I) e animação de
imagem para vídeo (I2V). Primeiro, o módulo S2P converte informações concisas
da história em prompts detalhados necessários para as etapas subsequentes. Em
seguida, o T2L gera layouts diversos e razoáveis com base nos prompts,
oferecendo aos usuários a capacidade de ajustar e refinar o layout de acordo
com sua preferência. O componente central, C-T2I, permite a criação de imagens
guiadas por layouts, esboços e identificadores específicos de atores para
manter a consistência e os detalhes nas visualizações. Finalmente, o I2V
enriquece o processo de visualização animando as imagens geradas. Experimentos
extensivos e um estudo com usuários são conduzidos para validar a eficácia e a
flexibilidade da edição interativa do sistema proposto.
English
Accurate Story visualization requires several necessary elements, such as
identity consistency across frames, the alignment between plain text and visual
content, and a reasonable layout of objects in images. Most previous works
endeavor to meet these requirements by fitting a text-to-image (T2I) model on a
set of videos in the same style and with the same characters, e.g., the
FlintstonesSV dataset. However, the learned T2I models typically struggle to
adapt to new characters, scenes, and styles, and often lack the flexibility to
revise the layout of the synthesized images. This paper proposes a system for
generic interactive story visualization, capable of handling multiple novel
characters and supporting the editing of layout and local structure. It is
developed by leveraging the prior knowledge of large language and T2I models,
trained on massive corpora. The system comprises four interconnected
components: story-to-prompt generation (S2P), text-to-layout generation (T2L),
controllable text-to-image generation (C-T2I), and image-to-video animation
(I2V). First, the S2P module converts concise story information into detailed
prompts required for subsequent stages. Next, T2L generates diverse and
reasonable layouts based on the prompts, offering users the ability to adjust
and refine the layout to their preference. The core component, C-T2I, enables
the creation of images guided by layouts, sketches, and actor-specific
identifiers to maintain consistency and detail across visualizations. Finally,
I2V enriches the visualization process by animating the generated images.
Extensive experiments and a user study are conducted to validate the
effectiveness and flexibility of interactive editing of the proposed system.