FlowDirector: 精密なテキストからビデオ編集のためのトレーニング不要なフロー制御
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
June 5, 2025
著者: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
cs.AI
要旨
テキスト駆動型ビデオ編集は、自然言語の指示に従ってビデオコンテンツを変更することを目的としています。最近のトレーニング不要なアプローチは、事前学習済みの拡散モデルを活用することで進展を遂げていますが、これらは通常、入力ビデオを潜在空間にマッピングする反転ベースの技術に依存しており、しばしば時間的な不整合や構造的な忠実度の低下を引き起こします。この問題に対処するため、我々はFlowDirectorという新しい反転不要のビデオ編集フレームワークを提案します。このフレームワークは、編集プロセスをデータ空間内での直接的な進化としてモデル化し、ビデオを常微分方程式(ODE)によってその内在する時空間多様体に沿って滑らかに遷移させることで、時間的整合性と構造的詳細を保持します。局所的で制御可能な編集を実現するために、ODEの速度場を調整する注意誘導型マスキングメカニズムを導入し、非ターゲット領域を空間的および時間的に保持します。さらに、不完全な編集に対処し、編集指示との意味的整合性を高めるために、Classifier-Free Guidanceにインスパイアされたガイダンス強化型編集戦略を提示します。この戦略は、複数の候補フロー間の差分信号を活用して、構造的一貫性を損なうことなく、編集軌跡をより強い意味的整合性に向けて導きます。ベンチマークにわたる広範な実験により、FlowDirectorが指示の遵守、時間的整合性、背景の保持において最先端の性能を達成し、反転なしで効率的で一貫性のあるビデオ編集の新しいパラダイムを確立することが示されました。
English
Text-driven video editing aims to modify video content according to natural
language instructions. While recent training-free approaches have made progress
by leveraging pre-trained diffusion models, they typically rely on
inversion-based techniques that map input videos into the latent space, which
often leads to temporal inconsistencies and degraded structural fidelity. To
address this, we propose FlowDirector, a novel inversion-free video editing
framework. Our framework models the editing process as a direct evolution in
data space, guiding the video via an Ordinary Differential Equation (ODE) to
smoothly transition along its inherent spatiotemporal manifold, thereby
preserving temporal coherence and structural details. To achieve localized and
controllable edits, we introduce an attention-guided masking mechanism that
modulates the ODE velocity field, preserving non-target regions both spatially
and temporally. Furthermore, to address incomplete edits and enhance semantic
alignment with editing instructions, we present a guidance-enhanced editing
strategy inspired by Classifier-Free Guidance, which leverages differential
signals between multiple candidate flows to steer the editing trajectory toward
stronger semantic alignment without compromising structural consistency.
Extensive experiments across benchmarks demonstrate that FlowDirector achieves
state-of-the-art performance in instruction adherence, temporal consistency,
and background preservation, establishing a new paradigm for efficient and
coherent video editing without inversion.