ChatPaper.aiChatPaper

MagicStick: 制御ハンドルによる変形を活用した制御可能な動画編集

MagicStick: Controllable Video Editing via Control Handle Transformations

December 5, 2023
著者: Yue Ma, Xiaodong Cun, Yingqing He, Chenyang Qi, Xintao Wang, Ying Shan, Xiu Li, Qifeng Chen
cs.AI

要旨

テキストベースのビデオ編集は最近、スタイルの変更や類似構造を持つオブジェクトの置換において大きな注目を集めています。これに加えて、我々は形状、サイズ、位置、動きなどのプロパティもビデオ内で編集可能であることを実証します。我々の重要な洞察は、特定の内部特徴(例えば、オブジェクトのエッジマップや人間のポーズ)のキーフレーム変換が、他のフレームに容易に伝播し、生成ガイダンスを提供できることです。そこで我々は、抽出された内部制御信号の変換を利用してビデオのプロパティを編集する制御可能なビデオ編集手法であるMagicStickを提案します。詳細には、外観を維持するために、事前学習済みの画像拡散モデルとControlNetを時間次元に拡張し、特定のシーンに適合するように低ランク適応(LORA)層を訓練します。その後、編集において、逆変換と編集のフレームワークを実行します。異なる点として、微調整されたControlNetが逆変換と生成の両方で、提案された空間注意マップ間の注意リミックスを用いた注意ガイダンスのために導入されます。簡潔ながらも、我々の手法は事前学習済みのテキストから画像へのモデルからビデオプロパティ編集の能力を示す最初の手法です。我々は統一されたフレームワーク内で多数の例を用いた実験を提示します。また、形状を意識したテキストベースの編集や手作りモーションビデオ生成と比較し、我々の手法が以前の作品よりも優れた時間的一貫性と編集能力を持つことを示します。コードとモデルは公開される予定です。
English
Text-based video editing has recently attracted considerable interest in changing the style or replacing the objects with a similar structure. Beyond this, we demonstrate that properties such as shape, size, location, motion, etc., can also be edited in videos. Our key insight is that the keyframe transformations of the specific internal feature (e.g., edge maps of objects or human pose), can easily propagate to other frames to provide generation guidance. We thus propose MagicStick, a controllable video editing method that edits the video properties by utilizing the transformation on the extracted internal control signals. In detail, to keep the appearance, we inflate both the pretrained image diffusion model and ControlNet to the temporal dimension and train low-rank adaptions (LORA) layers to fit the specific scenes. Then, in editing, we perform an inversion and editing framework. Differently, finetuned ControlNet is introduced in both inversion and generation for attention guidance with the proposed attention remix between the spatial attention maps of inversion and editing. Yet succinct, our method is the first method to show the ability of video property editing from the pre-trained text-to-image model. We present experiments on numerous examples within our unified framework. We also compare with shape-aware text-based editing and handcrafted motion video generation, demonstrating our superior temporal consistency and editing capability than previous works. The code and models will be made publicly available.
PDF112December 15, 2024