ChatPaper.aiChatPaper

DragVideo: 인터랙티브 드래그 방식 비디오 편집

DragVideo: Interactive Drag-style Video Editing

December 3, 2023
저자: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI

초록

비디오의 시각적 콘텐츠 편집은 여전히 두 가지 주요 문제로 인해 어려운 과제로 남아 있습니다: 1) 사용자가 직접적이고 쉽게 제어할 수 있어야 하며, 2) 형태, 표정, 레이아웃을 변경한 후에도 자연스러운 편집 결과를 얻어야 하며, 눈에 띄는 왜곡이나 아티팩트가 없어야 합니다. 최근 이미지 기반 드래그 스타일 편집 기술인 DragGAN에서 영감을 받아, 우리는 DragVideo를 제안하여 위의 문제를 해결하고자 합니다. DragVideo는 비디오 콘텐츠를 편집하면서도 시간적 일관성을 유지하기 위해 유사한 드래그 스타일 사용자 상호작용을 채택합니다. DragDiffusion에서와 같이 최신 확산 모델을 활용한 DragVideo는 새로운 Drag-on-Video U-Net (DoVe) 편집 방법을 포함하며, 이 방법은 비디오 U-Net에 의해 생성된 확산된 잠재 공간을 최적화하여 원하는 제어를 달성합니다. 구체적으로, 우리는 DoVe 방법으로부터 비디오의 충실한 재구성을 보장하기 위해 샘플별 LoRA 미세 조정과 상호 자기 주의 제어를 사용합니다. 또한, 우리는 드래그 스타일 비디오 편집을 위한 일련의 테스트 예제를 제시하고, 모션 편집, 스켈레톤 편집 등 다양한 도전적인 편집 작업에 걸쳐 광범위한 실험을 수행하여 DragVideo의 다용도성과 일반성을 강조합니다. DragVideo 웹 사용자 인터페이스를 포함한 우리의 코드는 공개될 예정입니다.
English
Editing visual content on videos remains a formidable challenge with two main issues: 1) direct and easy user control to produce 2) natural editing results without unsightly distortion and artifacts after changing shape, expression and layout. Inspired by DragGAN, a recent image-based drag-style editing technique, we address above issues by proposing DragVideo, where a similar drag-style user interaction is adopted to edit video content while maintaining temporal consistency. Empowered by recent diffusion models as in DragDiffusion, DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which optimizes diffused video latents generated by video U-Net to achieve the desired control. Specifically, we use Sample-specific LoRA fine-tuning and Mutual Self-Attention control to ensure faithful reconstruction of video from the DoVe method. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion editing, skeleton editing, etc, underscoring DragVideo's versatility and generality. Our codes including the DragVideo web user interface will be released.
PDF131December 15, 2024