TaleCrafter: 다중 캐릭터를 활용한 인터랙티브 스토리 시각화
TaleCrafter: Interactive Story Visualization with Multiple Characters
May 29, 2023
저자: Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang
cs.AI
초록
정확한 스토리 시각화를 위해서는 프레임 간의 정체성 일관성, 평문과 시각적 콘텐츠 간의 정렬, 이미지 내 객체의 합리적인 레이아웃과 같은 여러 필수 요소가 필요합니다. 대부분의 기존 연구들은 동일한 스타일과 동일한 캐릭터를 가진 비디오 세트(예: FlintstonesSV 데이터셋)에 텍스트-이미지(T2I) 모델을 적용하여 이러한 요구사항을 충족하려고 노력했습니다. 그러나 학습된 T2I 모델은 일반적으로 새로운 캐릭터, 장면, 스타일에 적응하는 데 어려움을 겪으며, 합성된 이미지의 레이아웃을 수정할 수 있는 유연성이 부족한 경우가 많습니다. 본 논문은 여러 새로운 캐릭터를 처리하고 레이아웃 및 로컬 구조 편집을 지원할 수 있는 일반적인 인터랙티브 스토리 시각화 시스템을 제안합니다. 이 시스템은 대규모 코퍼스로 훈련된 대형 언어 모델과 T2I 모델의 사전 지식을 활용하여 개발되었습니다. 시스템은 스토리-프롬프트 생성(S2P), 텍스트-레이아웃 생성(T2L), 제어 가능한 텍스트-이미지 생성(C-T2I), 이미지-비디오 애니메이션(I2V)의 네 가지 상호 연결된 구성 요소로 이루어져 있습니다. 먼저, S2P 모듈은 간결한 스토리 정보를 후속 단계에서 필요한 상세한 프롬프트로 변환합니다. 다음으로, T2L은 프롬프트를 기반으로 다양하고 합리적인 레이아웃을 생성하며, 사용자가 레이아웃을 조정하고 세부적으로 다듬을 수 있도록 합니다. 핵심 구성 요소인 C-T2I는 레이아웃, 스케치, 캐릭터별 식별자를 통해 이미지를 생성하여 시각화 전반에 걸쳐 일관성과 세부 사항을 유지할 수 있게 합니다. 마지막으로, I2V는 생성된 이미지를 애니메이션화하여 시각화 과정을 풍부하게 합니다. 제안된 시스템의 인터랙티브 편집의 효과성과 유연성을 검증하기 위해 광범위한 실험과 사용자 연구가 수행되었습니다.
English
Accurate Story visualization requires several necessary elements, such as
identity consistency across frames, the alignment between plain text and visual
content, and a reasonable layout of objects in images. Most previous works
endeavor to meet these requirements by fitting a text-to-image (T2I) model on a
set of videos in the same style and with the same characters, e.g., the
FlintstonesSV dataset. However, the learned T2I models typically struggle to
adapt to new characters, scenes, and styles, and often lack the flexibility to
revise the layout of the synthesized images. This paper proposes a system for
generic interactive story visualization, capable of handling multiple novel
characters and supporting the editing of layout and local structure. It is
developed by leveraging the prior knowledge of large language and T2I models,
trained on massive corpora. The system comprises four interconnected
components: story-to-prompt generation (S2P), text-to-layout generation (T2L),
controllable text-to-image generation (C-T2I), and image-to-video animation
(I2V). First, the S2P module converts concise story information into detailed
prompts required for subsequent stages. Next, T2L generates diverse and
reasonable layouts based on the prompts, offering users the ability to adjust
and refine the layout to their preference. The core component, C-T2I, enables
the creation of images guided by layouts, sketches, and actor-specific
identifiers to maintain consistency and detail across visualizations. Finally,
I2V enriches the visualization process by animating the generated images.
Extensive experiments and a user study are conducted to validate the
effectiveness and flexibility of interactive editing of the proposed system.