ChatPaper.aiChatPaper

LoRA-Edit: マスク認識型LoRAファインチューニングによる初フレーム誘導制御可能なビデオ編集

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

June 11, 2025
著者: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
cs.AI

要旨

拡散モデルを用いたビデオ編集は、高品質な編集を生成する点で顕著な成果を上げています。しかし、現在の手法は大規模な事前学習に依存することが多く、特定の編集に対する柔軟性が制限されています。初フレームガイド編集は初フレームに対する制御を提供しますが、後続のフレームに対する柔軟性に欠けます。この問題を解決するため、我々は事前学習済みのImage-to-Video(I2V)モデルを柔軟なビデオ編集に適応させるためのマスクベースのLoRA(Low-Rank Adaptation)チューニング手法を提案します。本手法は背景領域を保持しつつ、制御可能な編集の伝播を可能にします。このソリューションは、モデルアーキテクチャを変更することなく、効率的で適応性の高いビデオ編集を提供します。このプロセスをより適切に導くため、代替視点や代表的なシーンの状態などの追加の参照を組み込み、コンテンツがどのように展開すべきかの視覚的なアンカーとして機能させます。我々は、事前学習済みの画像からビデオへのモデルを編集コンテキストに適応させるためのマスク駆動型LoRAチューニング戦略を用いて、制御の課題に対処します。モデルは2つの異なる情報源から学習する必要があります。入力ビデオは空間構造と動きの手がかりを提供し、参照画像は外観のガイダンスを提供します。空間マスクは、モデルが注目する領域を動的に調整することで、領域ごとの学習を可能にし、各領域が適切な情報源から引き出されることを保証します。実験結果は、我々の手法が最先端の手法と比較して優れたビデオ編集性能を達成することを示しています。
English
Video editing using diffusion models has achieved remarkable results in generating high-quality edits for videos. However, current methods often rely on large-scale pretraining, limiting flexibility for specific edits. First-frame-guided editing provides control over the first frame, but lacks flexibility over subsequent frames. To address this, we propose a mask-based LoRA (Low-Rank Adaptation) tuning method that adapts pretrained Image-to-Video (I2V) models for flexible video editing. Our approach preserves background regions while enabling controllable edits propagation. This solution offers efficient and adaptable video editing without altering the model architecture. To better steer this process, we incorporate additional references, such as alternate viewpoints or representative scene states, which serve as visual anchors for how content should unfold. We address the control challenge using a mask-driven LoRA tuning strategy that adapts a pre-trained image-to-video model to the editing context. The model must learn from two distinct sources: the input video provides spatial structure and motion cues, while reference images offer appearance guidance. A spatial mask enables region-specific learning by dynamically modulating what the model attends to, ensuring that each area draws from the appropriate source. Experimental results show our method achieves superior video editing performance compared to state-of-the-art methods.
PDF42June 16, 2025