SketchVideo: 스케치 기반 비디오 생성 및 편집
SketchVideo: Sketch-based Video Generation and Editing
March 30, 2025
저자: Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
cs.AI
초록
텍스트 프롬프트나 이미지에 기반한 비디오 생성 및 편집 기술은 상당한 발전을 이루어 왔습니다. 그러나 텍스트만으로 전역적인 레이아웃과 기하학적 세부 사항을 정확하게 제어하거나, 이미지를 통해 모션 제어와 지역적 수정을 지원하는 데는 여전히 과제가 남아 있습니다. 본 논문에서는 스케치 기반의 공간 및 모션 제어를 통해 비디오 생성을 달성하고, 실제 또는 합성 비디오의 세밀한 편집을 지원하는 것을 목표로 합니다. DiT 비디오 생성 모델을 기반으로, 스킵된 DiT 블록의 잔차 특징을 예측하는 스케치 제어 블록을 포함한 메모리 효율적인 제어 구조를 제안합니다. 스케치는 하나 또는 두 개의 키프레임(임의의 시간 지점)에 그려져 쉬운 상호작용을 가능하게 합니다. 이러한 시간적으로 희소한 스케치 조건을 모든 프레임에 전파하기 위해, 키프레임과 각 비디오 프레임 간의 관계를 분석하는 프레임 간 주의 메커니즘을 제안합니다. 스케치 기반 비디오 편집을 위해, 새로 편집된 콘텐츠와 원본 비디오의 공간적 특징 및 동적 모션 간의 일관성을 유지하는 추가 비디오 삽입 모듈을 설계합니다. 추론 과정에서는 편집되지 않은 영역의 정확한 보존을 위해 잠재 융합을 사용합니다. 광범위한 실험을 통해 우리의 SketchVideo가 제어 가능한 비디오 생성 및 편집에서 우수한 성능을 달성함을 입증합니다.
English
Video generation and editing conditioned on text prompts or images have
undergone significant advancements. However, challenges remain in accurately
controlling global layout and geometry details solely by texts, and supporting
motion control and local modification through images. In this paper, we aim to
achieve sketch-based spatial and motion control for video generation and
support fine-grained editing of real or synthetic videos. Based on the DiT
video generation model, we propose a memory-efficient control structure with
sketch control blocks that predict residual features of skipped DiT blocks.
Sketches are drawn on one or two keyframes (at arbitrary time points) for easy
interaction. To propagate such temporally sparse sketch conditions across all
frames, we propose an inter-frame attention mechanism to analyze the
relationship between the keyframes and each video frame. For sketch-based video
editing, we design an additional video insertion module that maintains
consistency between the newly edited content and the original video's spatial
feature and dynamic motion. During inference, we use latent fusion for the
accurate preservation of unedited regions. Extensive experiments demonstrate
that our SketchVideo achieves superior performance in controllable video
generation and editing.Summary
AI-Generated Summary