一貫性のある動画編集のためのモーション認識概念アラインメント
Motion-Aware Concept Alignment for Consistent Video Editing
June 1, 2025
著者: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI
要旨
本論文では、MoCA-Video(Motion-Aware Concept Alignment in Video)を紹介する。これは、画像領域の意味的混合とビデオの間のギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザー提供の参照画像が与えられた場合、MoCA-Videoは参照画像の意味的特徴をビデオ内の特定のオブジェクトに注入しつつ、元の動きと視覚的コンテキストを保持する。本手法は、対角ノイズ除去スケジュールとクラス非依存のセグメンテーションを活用し、潜在空間内でオブジェクトを検出・追跡し、ブレンドされたオブジェクトの空間的位置を精密に制御する。時間的整合性を確保するために、モーメンタムベースの意味的補正とガンマ残差ノイズ安定化を組み込み、スムーズなフレーム遷移を実現する。MoCAの性能を評価するために、標準的なSSIM、画像レベルのLPIPS、時間的LPIPSを使用し、さらに新しい指標CASS(Conceptual Alignment Shift Score)を導入して、ソースプロンプトと修正されたビデオフレーム間の視覚的シフトの一貫性と効果を評価する。独自に構築したデータセットを使用して、MoCA-Videoは現在のベースラインを上回り、トレーニングやファインチューニングを行わずに、優れた空間的一貫性、連続した動き、および大幅に高いCASSスコアを達成する。MoCA-Videoは、拡散ノイズ軌跡における構造化された操作が、制御可能で高品質なビデオ合成を可能にすることを示している。
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a
training-free framework bridging the gap between image-domain semantic mixing
and video. Given a generated video and a user-provided reference image,
MoCA-Video injects the semantic features of the reference image into a specific
object within the video, while preserving the original motion and visual
context. Our approach leverages a diagonal denoising schedule and
class-agnostic segmentation to detect and track objects in the latent space and
precisely control the spatial location of the blended objects. To ensure
temporal coherence, we incorporate momentum-based semantic corrections and
gamma residual noise stabilization for smooth frame transitions. We evaluate
MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS,
and introduce a novel metric CASS (Conceptual Alignment Shift Score) to
evaluate the consistency and effectiveness of the visual shifts between the
source prompt and the modified video frames. Using self-constructed dataset,
MoCA-Video outperforms current baselines, achieving superior spatial
consistency, coherent motion, and a significantly higher CASS score, despite
having no training or fine-tuning. MoCA-Video demonstrates that structured
manipulation in the diffusion noise trajectory allows for controllable,
high-quality video synthesis.