TaleCrafter: Интерактивная визуализация историй с несколькими персонажами
TaleCrafter: Interactive Story Visualization with Multiple Characters
May 29, 2023
Авторы: Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang
cs.AI
Аннотация
Для точной визуализации историй требуется несколько ключевых элементов, таких как
согласованность идентичности между кадрами, соответствие между текстом и визуальным
содержанием, а также разумное расположение объектов на изображениях. Большинство
предыдущих работ пытаются удовлетворить эти требования, адаптируя модель преобразования
текста в изображение (T2I) на наборе видео в одном стиле и с одними и теми же персонажами,
например, на наборе данных FlintstonesSV. Однако обученные модели T2I обычно с трудом
адаптируются к новым персонажам, сценам и стилям и часто не обладают гибкостью для
изменения компоновки синтезированных изображений. В данной статье предлагается система
для универсальной интерактивной визуализации историй, способная работать с несколькими
новыми персонажами и поддерживающая редактирование компоновки и локальной структуры.
Она разработана с использованием априорных знаний крупных языковых моделей и моделей T2I,
обученных на обширных корпусах данных. Система состоит из четырех взаимосвязанных
компонентов: генерация подсказок из истории (S2P), генерация компоновки из текста (T2L),
управляемое преобразование текста в изображение (C-T2I) и анимация изображений в видео (I2V).
Сначала модуль S2P преобразует краткую информацию о истории в детализированные подсказки,
необходимые для последующих этапов. Затем T2L генерирует разнообразные и разумные
компоновки на основе подсказок, предоставляя пользователям возможность настраивать и
уточнять компоновку по своему усмотрению. Основной компонент, C-T2I, позволяет создавать
изображения, руководствуясь компоновками, набросками и идентификаторами персонажей для
поддержания согласованности и детализации в визуализациях. Наконец, I2V обогащает процесс
визуализации, анимируя сгенерированные изображения. Проведены обширные эксперименты и
исследование с участием пользователей, чтобы подтвердить эффективность и гибкость
интерактивного редактирования предложенной системы.
English
Accurate Story visualization requires several necessary elements, such as
identity consistency across frames, the alignment between plain text and visual
content, and a reasonable layout of objects in images. Most previous works
endeavor to meet these requirements by fitting a text-to-image (T2I) model on a
set of videos in the same style and with the same characters, e.g., the
FlintstonesSV dataset. However, the learned T2I models typically struggle to
adapt to new characters, scenes, and styles, and often lack the flexibility to
revise the layout of the synthesized images. This paper proposes a system for
generic interactive story visualization, capable of handling multiple novel
characters and supporting the editing of layout and local structure. It is
developed by leveraging the prior knowledge of large language and T2I models,
trained on massive corpora. The system comprises four interconnected
components: story-to-prompt generation (S2P), text-to-layout generation (T2L),
controllable text-to-image generation (C-T2I), and image-to-video animation
(I2V). First, the S2P module converts concise story information into detailed
prompts required for subsequent stages. Next, T2L generates diverse and
reasonable layouts based on the prompts, offering users the ability to adjust
and refine the layout to their preference. The core component, C-T2I, enables
the creation of images guided by layouts, sketches, and actor-specific
identifiers to maintain consistency and detail across visualizations. Finally,
I2V enriches the visualization process by animating the generated images.
Extensive experiments and a user study are conducted to validate the
effectiveness and flexibility of interactive editing of the proposed system.