VideoDrafter: LLM 기반 콘텐츠 일관성 유지 다중 장면 비디오 생성
VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM
January 2, 2024
저자: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
cs.AI
초록
최근 디퓨전 모델의 혁신과 돌파구는 주어진 프롬프트에 대해 고품질 비디오를 생성할 가능성을 크게 확장시켰습니다. 기존 연구의 대부분은 단일 배경에서 하나의 비디오 이벤트만 발생하는 단일 장면 시나리오를 다루고 있습니다. 그러나 다중 장면 비디오 생성으로 확장하는 것은 간단하지 않으며, 비디오 장면 간의 논리를 잘 관리하면서도 주요 콘텐츠의 시각적 일관성을 유지해야 합니다. 본 논문에서는 콘텐츠 일관성을 유지한 다중 장면 비디오 생성을 위한 새로운 프레임워크인 VideoDrafter를 제안합니다. 기술적으로, VideoDrafter는 대형 언어 모델(LLM)을 활용하여 입력 프롬프트를 종합적인 다중 장면 스크립트로 변환하며, 이는 LLM이 학습한 논리적 지식을 활용합니다. 각 장면의 스크립트는 이벤트를 설명하는 프롬프트, 전경/배경 개체, 그리고 카메라 이동을 포함합니다. VideoDrafter는 스크립트 전체에서 공통 개체를 식별하고 LLM에게 각 개체를 상세히 설명하도록 요청합니다. 그 결과로 생성된 개체 설명은 텍스트-이미지 모델에 입력되어 각 개체에 대한 참조 이미지를 생성합니다. 마지막으로, VideoDrafter는 참조 이미지, 이벤트의 설명 프롬프트, 그리고 카메라 이동을 고려한 디퓨전 프로세스를 통해 각 장면 비디오를 생성하여 다중 장면 비디오를 출력합니다. 디퓨전 모델은 참조 이미지를 조건 및 정렬로 통합하여 다중 장면 비디오의 콘텐츠 일관성을 강화합니다. 광범위한 실험을 통해 VideoDrafter가 시각적 품질, 콘텐츠 일관성, 그리고 사용자 선호도 측면에서 최신 비디오 생성 모델을 능가함을 입증했습니다.
English
The recent innovations and breakthroughs in diffusion models have
significantly expanded the possibilities of generating high-quality videos for
the given prompts. Most existing works tackle the single-scene scenario with
only one video event occurring in a single background. Extending to generate
multi-scene videos nevertheless is not trivial and necessitates to nicely
manage the logic in between while preserving the consistent visual appearance
of key content across video scenes. In this paper, we propose a novel
framework, namely VideoDrafter, for content-consistent multi-scene video
generation. Technically, VideoDrafter leverages Large Language Models (LLM) to
convert the input prompt into comprehensive multi-scene script that benefits
from the logical knowledge learnt by LLM. The script for each scene includes a
prompt describing the event, the foreground/background entities, as well as
camera movement. VideoDrafter identifies the common entities throughout the
script and asks LLM to detail each entity. The resultant entity description is
then fed into a text-to-image model to generate a reference image for each
entity. Finally, VideoDrafter outputs a multi-scene video by generating each
scene video via a diffusion process that takes the reference images, the
descriptive prompt of the event and camera movement into account. The diffusion
model incorporates the reference images as the condition and alignment to
strengthen the content consistency of multi-scene videos. Extensive experiments
demonstrate that VideoDrafter outperforms the SOTA video generation models in
terms of visual quality, content consistency, and user preference.