MagicStick: 컨트롤 핸들을 통한 제어 가능한 비디오 편집 변환
MagicStick: Controllable Video Editing via Control Handle Transformations
December 5, 2023
저자: Yue Ma, Xiaodong Cun, Yingqing He, Chenyang Qi, Xintao Wang, Ying Shan, Xiu Li, Qifeng Chen
cs.AI
초록
텍스트 기반 비디오 편집은 최근 스타일 변경이나 유사한 구조의 객체 교체에 상당한 관심을 끌고 있습니다. 이를 넘어서, 우리는 비디오에서 모양, 크기, 위치, 움직임 등의 속성도 편집할 수 있음을 보여줍니다. 우리의 핵심 통찰은 특정 내부 특징(예: 객체의 에지 맵 또는 인간 포즈)의 키프레임 변환이 다른 프레임으로 쉽게 전파되어 생성 지침을 제공할 수 있다는 것입니다. 따라서 우리는 추출된 내부 제어 신호에 대한 변환을 활용하여 비디오 속성을 편집하는 제어 가능한 비디오 편집 방법인 MagicStick을 제안합니다. 구체적으로, 외관을 유지하기 위해 사전 훈련된 이미지 확산 모델과 ControlNet을 시간 차원으로 확장하고 특정 장면에 맞도록 저순위 적응( LoRA) 레이어를 훈련시킵니다. 그런 다음 편집 과정에서 역변환 및 편집 프레임워크를 수행합니다. 다르게, 미세 조정된 ControlNet은 역변환과 생성 모두에서 제안된 주의 혼합을 통해 역변환과 편집의 공간 주의 맵 간의 주의 지침을 위해 도입됩니다. 간결하지만, 우리의 방법은 사전 훈련된 텍스트-이미지 모델에서 비디오 속성 편집 능력을 보여주는 첫 번째 방법입니다. 우리는 통합 프레임워크 내에서 다양한 예제에 대한 실험을 제시합니다. 또한 모양 인식 텍스트 기반 편집 및 수작업 모션 비디오 생성과 비교하여, 우리의 방법이 이전 작업보다 우수한 시간적 일관성과 편집 능력을 보여줍니다. 코드와 모델은 공개될 예정입니다.
English
Text-based video editing has recently attracted considerable interest in
changing the style or replacing the objects with a similar structure. Beyond
this, we demonstrate that properties such as shape, size, location, motion,
etc., can also be edited in videos. Our key insight is that the keyframe
transformations of the specific internal feature (e.g., edge maps of objects or
human pose), can easily propagate to other frames to provide generation
guidance. We thus propose MagicStick, a controllable video editing method that
edits the video properties by utilizing the transformation on the extracted
internal control signals. In detail, to keep the appearance, we inflate both
the pretrained image diffusion model and ControlNet to the temporal dimension
and train low-rank adaptions (LORA) layers to fit the specific scenes. Then, in
editing, we perform an inversion and editing framework. Differently, finetuned
ControlNet is introduced in both inversion and generation for attention
guidance with the proposed attention remix between the spatial attention maps
of inversion and editing. Yet succinct, our method is the first method to show
the ability of video property editing from the pre-trained text-to-image model.
We present experiments on numerous examples within our unified framework. We
also compare with shape-aware text-based editing and handcrafted motion video
generation, demonstrating our superior temporal consistency and editing
capability than previous works. The code and models will be made publicly
available.