TrailBlazer: 확산 기반 비디오 생성을 위한 궤적 제어
TrailBlazer: Trajectory Control for Diffusion-Based Video Generation
December 31, 2023
저자: Wan-Duo Kurt Ma, J. P. Lewis, W. Bastiaan Kleijn
cs.AI
초록
최근 텍스트-투-비디오(T2V) 생성 접근법에서, 합성된 비디오의 제어 가능성을 달성하는 것은 종종 어려운 과제입니다. 일반적으로 이 문제는 에지 맵, 깊이 맵, 또는 수정할 기존 비디오 형태의 저수준 프레임별 지침을 제공함으로써 해결됩니다. 그러나 이러한 지침을 얻는 과정은 노동 집약적일 수 있습니다. 본 논문은 신경망 훈련, 미세 조정, 추론 시간 최적화, 또는 기존 비디오 사용 없이도 다양한 방식으로 주제를 안내하기 위해 간단한 바운딩 박스를 사용하여 비디오 합성의 제어 가능성을 향상시키는 데 초점을 맞춥니다. 우리의 알고리즘인 TrailBlazer는 사전 훈련된 T2V 모델을 기반으로 구축되었으며 구현이 쉽습니다. 제안된 공간 및 시간적 주의 맵 편집을 통해 바운딩 박스가 주제를 안내합니다. 또한, 키프레임 개념을 도입하여 상세한 마스크 없이도 이동하는 바운딩 박스와 해당 프롬프트를 통해 주제의 궤적과 전체 외관을 안내할 수 있습니다. 이 방법은 기본 사전 훈련 모델에 비해 추가 계산이 거의 없어 효율적입니다. 바운딩 박스 지침의 단순함에도 불구하고, 결과적인 움직임은 놀랍도록 자연스럽고, 박스 크기가 증가함에 따라 가상 카메라를 향한 원근감과 움직임을 포함한 새로운 효과가 나타납니다.
English
Within recent approaches to text-to-video (T2V) generation, achieving
controllability in the synthesized video is often a challenge. Typically, this
issue is addressed by providing low-level per-frame guidance in the form of
edge maps, depth maps, or an existing video to be altered. However, the process
of obtaining such guidance can be labor-intensive. This paper focuses on
enhancing controllability in video synthesis by employing straightforward
bounding boxes to guide the subject in various ways, all without the need for
neural network training, finetuning, optimization at inference time, or the use
of pre-existing videos. Our algorithm, TrailBlazer, is constructed upon a
pre-trained (T2V) model, and easy to implement. The subject is directed by a
bounding box through the proposed spatial and temporal attention map editing.
Moreover, we introduce the concept of keyframing, allowing the subject
trajectory and overall appearance to be guided by both a moving bounding box
and corresponding prompts, without the need to provide a detailed mask. The
method is efficient, with negligible additional computation relative to the
underlying pre-trained model. Despite the simplicity of the bounding box
guidance, the resulting motion is surprisingly natural, with emergent effects
including perspective and movement toward the virtual camera as the box size
increases.