ChatPaper.aiChatPaper

ReVideo: モーションとコンテンツ制御によるビデオ再構築

ReVideo: Remake a Video with Motion and Content Control

May 22, 2024
著者: Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang
cs.AI

要旨

拡散モデルを用いたビデオ生成と編集において大きな進展が見られるものの、正確で局所的なビデオ編集を実現することは依然として大きな課題です。さらに、既存のビデオ編集手法の多くは視覚的な内容の変更に主眼を置いており、モーション編集に特化した研究は限られています。本論文では、既存の手法とは一線を画す新しい試みとして、ビデオをリメイクする「ReVideo」を提案します。ReVideoは、内容とモーションの両方を指定することで、特定の領域における精密なビデオ編集を可能にします。内容編集は最初のフレームを変更することで実現し、軌道ベースのモーション制御は直感的なユーザーインタラクションを提供します。ReVideoは、内容とモーション制御の結合とトレーニングの不均衡という新しい課題に取り組みます。これを解決するために、これら2つの側面を粗から細へと段階的に分離する3段階のトレーニング戦略を開発しました。さらに、様々なサンプリングステップと空間位置にわたって内容とモーション制御を統合するための時空間適応型融合モジュールを提案します。広範な実験により、ReVideoがいくつかの正確なビデオ編集アプリケーションにおいて有望な性能を示すことが実証されました。具体的には、(1) モーションを一定に保ちながらビデオの内容を局所的に変更する、(2) 内容を変更せずに新しいモーション軌道をカスタマイズする、(3) 内容とモーション軌道の両方を変更する、といったアプリケーションです。また、本手法は特定のトレーニングなしにこれらのアプリケーションを複数領域の編集にシームレスに拡張できるため、その柔軟性と堅牢性が示されています。
English
Despite significant advancements in video generation and editing using diffusion models, achieving accurate and localized video editing remains a substantial challenge. Additionally, most existing video editing methods primarily focus on altering visual content, with limited research dedicated to motion editing. In this paper, we present a novel attempt to Remake a Video (ReVideo) which stands out from existing methods by allowing precise video editing in specific areas through the specification of both content and motion. Content editing is facilitated by modifying the first frame, while the trajectory-based motion control offers an intuitive user interaction experience. ReVideo addresses a new task involving the coupling and training imbalance between content and motion control. To tackle this, we develop a three-stage training strategy that progressively decouples these two aspects from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion module to integrate content and motion control across various sampling steps and spatial locations. Extensive experiments demonstrate that our ReVideo has promising performance on several accurate video editing applications, i.e., (1) locally changing video content while keeping the motion constant, (2) keeping content unchanged and customizing new motion trajectories, (3) modifying both content and motion trajectories. Our method can also seamlessly extend these applications to multi-area editing without specific training, demonstrating its flexibility and robustness.

Summary

AI-Generated Summary

PDF265December 15, 2024