ChatPaper.aiChatPaper

MagicProp: 모션 인식 외관 전파를 통한 확산 기반 비디오 편집

MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation

September 2, 2023
저자: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
cs.AI

초록

본 논문은 동영상의 움직임을 보존하면서 시각적 외관을 수정하는 문제를 다룹니다. 이를 위해 MagicProp이라는 새로운 프레임워크를 제안하며, 이는 동영상 편집 과정을 외관 편집과 움직임 인식 외관 전파의 두 단계로 분리합니다. 첫 번째 단계에서 MagicProp은 입력 동영상에서 단일 프레임을 선택하고 이미지 편집 기법을 적용하여 프레임의 내용 및/또는 스타일을 수정합니다. 이러한 기법의 유연성은 프레임 내 임의의 영역을 편집할 수 있게 합니다. 두 번째 단계에서 MagicProp은 편집된 프레임을 외관 참조로 사용하고 자기회귀적 렌더링 접근법을 통해 나머지 프레임을 생성합니다. 이를 위해 PropDPM이라는 확산 기반 조건부 생성 모델을 개발하였으며, 이 모델은 참조 외관, 목표 움직임, 그리고 이전 외관을 조건으로 하여 목표 프레임을 합성합니다. 자기회귀적 편집 접근법은 결과 동영상의 시간적 일관성을 보장합니다. 전반적으로, MagicProp은 이미지 편집 기법의 유연성과 자기회귀 모델링의 우수한 시간적 일관성을 결합하여 입력 동영상의 임의 영역에서 객체 유형과 미적 스타일을 유연하게 편집하면서도 프레임 간의 좋은 시간적 일관성을 유지할 수 있게 합니다. 다양한 동영상 편집 시나리오에서의 광범위한 실험을 통해 MagicProp의 효과성을 입증하였습니다.
English
This paper addresses the issue of modifying the visual appearance of videos while preserving their motion. A novel framework, named MagicProp, is proposed, which disentangles the video editing process into two stages: appearance editing and motion-aware appearance propagation. In the first stage, MagicProp selects a single frame from the input video and applies image-editing techniques to modify the content and/or style of the frame. The flexibility of these techniques enables the editing of arbitrary regions within the frame. In the second stage, MagicProp employs the edited frame as an appearance reference and generates the remaining frames using an autoregressive rendering approach. To achieve this, a diffusion-based conditional generation model, called PropDPM, is developed, which synthesizes the target frame by conditioning on the reference appearance, the target motion, and its previous appearance. The autoregressive editing approach ensures temporal consistency in the resulting videos. Overall, MagicProp combines the flexibility of image-editing techniques with the superior temporal consistency of autoregressive modeling, enabling flexible editing of object types and aesthetic styles in arbitrary regions of input videos while maintaining good temporal consistency across frames. Extensive experiments in various video editing scenarios demonstrate the effectiveness of MagicProp.
PDF60December 15, 2024