ChatPaper.aiChatPaper

Animate-A-Story: 검색 강화 비디오 생성을 통한 스토리텔링

Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

July 13, 2023
저자: Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng, Ying Shan, Qifeng Chen
cs.AI

초록

시각적 스토리텔링을 위한 비디오 생성은 일반적으로 실사 촬영이나 그래픽 애니메이션 렌더링이 필요한 번거롭고 복잡한 과정일 수 있습니다. 이러한 문제를 우회하기 위해, 우리의 핵심 아이디어는 기존의 풍부한 비디오 클립을 활용하고 그들의 외관을 맞춤화하여 일관된 스토리텔링 비디오를 합성하는 것입니다. 이를 위해 우리는 두 가지 기능적 모듈로 구성된 프레임워크를 개발했습니다: (i) 쿼리 텍스트로 설명된 원하는 장면 또는 동작 컨텍스트를 제공하는 비디오 후보를 제공하는 모션 구조 검색(Motion Structure Retrieval)과 (ii) 모션 구조와 텍스트 프롬프트의 지도 하에 플롯에 맞는 비디오를 생성하는 구조 기반 텍스트-투-비디오 합성(Structure-Guided Text-to-Video Synthesis)입니다. 첫 번째 모듈을 위해, 우리는 기존의 비디오 검색 시스템을 활용하고 비디오 깊이를 모션 구조로 추출합니다. 두 번째 모듈을 위해, 우리는 구조와 캐릭터에 대한 유연한 제어를 제공하는 제어 가능한 비디오 생성 모델을 제안합니다. 비디오는 구조적 지도와 외관 지시를 따라 합성됩니다. 클립 간의 시각적 일관성을 보장하기 위해, 우리는 텍스트 프롬프트를 통해 원하는 캐릭터 신원을 지정할 수 있는 효과적인 개념 개인화 접근 방식을 제안합니다. 광범위한 실험을 통해 우리의 접근 방식이 다양한 기존 베이스라인에 비해 상당한 이점을 보임을 입증했습니다.
English
Generating videos for visual storytelling can be a tedious and complex process that typically requires either live-action filming or graphics animation rendering. To bypass these challenges, our key idea is to utilize the abundance of existing video clips and synthesize a coherent storytelling video by customizing their appearances. We achieve this by developing a framework comprised of two functional modules: (i) Motion Structure Retrieval, which provides video candidates with desired scene or motion context described by query texts, and (ii) Structure-Guided Text-to-Video Synthesis, which generates plot-aligned videos under the guidance of motion structure and text prompts. For the first module, we leverage an off-the-shelf video retrieval system and extract video depths as motion structure. For the second module, we propose a controllable video generation model that offers flexible controls over structure and characters. The videos are synthesized by following the structural guidance and appearance instruction. To ensure visual consistency across clips, we propose an effective concept personalization approach, which allows the specification of the desired character identities through text prompts. Extensive experiments demonstrate that our approach exhibits significant advantages over various existing baselines.
PDF100December 15, 2024