ChatPaper.aiChatPaper

トレーニング不要で実現する映像コンテンツ・アクション・ダイナミクスの多用途編集

Versatile Editing of Video Content, Actions, and Dynamics without Training

March 18, 2026
著者: Vladimir Kulikov, Roni Paiss, Andrey Voynov, Inbar Mosseri, Tali Dekel, Tomer Michaeli
cs.AI

要旨

近年、制御された動画生成は飛躍的な進歩を遂げている。しかしながら、実世界の動画においてアクションや動的イベントを編集したり、他のオブジェクトの挙動に影響を与えるべきコンテンツを挿入することは、依然として大きな課題である。既存の学習済みモデルは複雑な編集に苦戦しており、これは関連する学習データの収集が困難であることに起因する可能性が高い。同様に、既存の学習不要な手法は、本質的に構造と動きを保存する編集に制限されており、動きや相互作用の変更をサポートしていない。本論文では、学習済みのテキスト-to-動画フローモデルを用いて多様な動画編集機能を実現する、学習不要な編集手法DynaEditを提案する。本手法は、モデルの内部に干渉しない最近導入された反転不要アプローチに依存しており、したがってモデル非依存である。我々は、このアプローチを一般的な制約のない編集に単純に適用しようと試みると、深刻な低周波数の位置ずれと高周波数のジッターが生じることを示す。これらの現象の原因を説明し、それらを克服する新しいメカニズムを導入する。広範な実験を通じて、DynaEditが、アクションの変更、シーンと相互作用するオブジェクトの挿入、グローバルな効果の導入を含む、複雑なテキストベースの動画編集タスクにおいて最先端の結果を達成することを示す。
English
Controlled video generation has seen drastic improvements in recent years. However, editing actions and dynamic events, or inserting contents that should affect the behaviors of other objects in real-world videos, remains a major challenge. Existing trained models struggle with complex edits, likely due to the difficulty of collecting relevant training data. Similarly, existing training-free methods are inherently restricted to structure- and motion-preserving edits and do not support modification of motion or interactions. Here, we introduce DynaEdit, a training-free editing method that unlocks versatile video editing capabilities with pretrained text-to-video flow models. Our method relies on the recently introduced inversion-free approach, which does not intervene in the model internals, and is thus model-agnostic. We show that naively attempting to adapt this approach to general unconstrained editing results in severe low-frequency misalignment and high-frequency jitter. We explain the sources for these phenomena and introduce novel mechanisms for overcoming them. Through extensive experiments, we show that DynaEdit achieves state-of-the-art results on complex text-based video editing tasks, including modifying actions, inserting objects that interact with the scene, and introducing global effects.
PDF111March 24, 2026