ReVideo: 동작과 콘텐츠 제어를 통한 비디오 리메이크
ReVideo: Remake a Video with Motion and Content Control
May 22, 2024
저자: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang
cs.AI
초록
확산 모델을 활용한 비디오 생성 및 편집 기술이 크게 발전했음에도 불구하고, 정확하고 지역화된 비디오 편집을 달성하는 것은 여전히 상당한 과제로 남아 있습니다. 또한, 기존의 대부분의 비디오 편집 방법은 주로 시각적 콘텐츠를 변경하는 데 초점을 맞추고 있으며, 모션 편집에 관한 연구는 제한적입니다. 본 논문에서는 기존 방법과 차별화된 새로운 시도로서, 콘텐츠와 모션을 모두 지정함으로써 특정 영역에서 정밀한 비디오 편집을 가능하게 하는 ReVideo(비디오 리메이크)를 제안합니다. 콘텐츠 편집은 첫 번째 프레임을 수정함으로써 이루어지며, 궤적 기반의 모션 제어는 직관적인 사용자 상호작용 경험을 제공합니다. ReVideo는 콘텐츠와 모션 제어 간의 결합 및 학습 불균형을 해결하는 새로운 과제를 다룹니다. 이를 위해, 우리는 두 가지 측면을 점진적으로 분리하는 세 단계의 학습 전략을 개발했습니다. 또한, 다양한 샘플링 단계와 공간적 위치에서 콘텐츠와 모션 제어를 통합하기 위해 시공간 적응형 융합 모듈을 제안합니다. 광범위한 실험을 통해 우리의 ReVideo가 여러 정확한 비디오 편집 응용 분야에서 유망한 성능을 보여줌을 입증했습니다. 즉, (1) 모션을 유지하면서 비디오 콘텐츠를 지역적으로 변경, (2) 콘텐츠를 그대로 유지하고 새로운 모션 궤적을 사용자 정의, (3) 콘텐츠와 모션 궤적을 모두 수정하는 작업에서 뛰어난 성능을 보였습니다. 또한, 우리의 방법은 특별한 학습 없이도 이러한 응용을 다중 영역 편집으로 원활하게 확장할 수 있어 유연성과 견고성을 입증했습니다.
English
Despite significant advancements in video generation and editing using
diffusion models, achieving accurate and localized video editing remains a
substantial challenge. Additionally, most existing video editing methods
primarily focus on altering visual content, with limited research dedicated to
motion editing. In this paper, we present a novel attempt to Remake a Video
(ReVideo) which stands out from existing methods by allowing precise video
editing in specific areas through the specification of both content and motion.
Content editing is facilitated by modifying the first frame, while the
trajectory-based motion control offers an intuitive user interaction
experience. ReVideo addresses a new task involving the coupling and training
imbalance between content and motion control. To tackle this, we develop a
three-stage training strategy that progressively decouples these two aspects
from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion
module to integrate content and motion control across various sampling steps
and spatial locations. Extensive experiments demonstrate that our ReVideo has
promising performance on several accurate video editing applications, i.e., (1)
locally changing video content while keeping the motion constant, (2) keeping
content unchanged and customizing new motion trajectories, (3) modifying both
content and motion trajectories. Our method can also seamlessly extend these
applications to multi-area editing without specific training, demonstrating its
flexibility and robustness.