FlowAnchor: Stabilizzare il Segnale di Modifica per l'Editing Video Senza Inversione

Abstract

Proponiamo FlowAnchor, un framework senza training per l'editing video basato su flussi, stabile, efficiente e senza inversione. I metodi di editing senza inversione hanno recentemente dimostrato un'efficienza e una preservazione della struttura impressionanti nelle immagini, guidando direttamente la traiettoria di campionamento con un segnale di editing. Tuttavia, estendere questo paradigma ai video rimane impegnativo, fallendo spesso in scene multi-oggetto o con un numero di fotogrammi elevato. Identifichiamo la causa principale nell'instabilità del segnale di editing negli spazi latenti video ad alta dimensionalità, che sorge da una localizzazione spaziale imprecisa e da un'attenuazione di magnitudine indotta dalla lunghezza. Per superare questa sfida, FlowAnchor ancorizza esplicitamente sia dove editare che quanto intensamente editare. Introduce lo Spatial-aware Attention Refinement, che impone un allineamento coerente tra la guida testuale e le regioni spaziali, e l'Adaptive Magnitude Modulation, che preserva in modo adattivo una forza di editing sufficiente. Insieme, questi meccanismi stabilizzano il segnale di editing e guidano l'evoluzione basata sui flussi verso la distribuzione target desiderata. Esperimenti estensivi dimostrano che FlowAnchor raggiunge un editing video più fedele, temporalmente coerente e computazionalmente efficiente in scenari impegnativi multi-oggetto e a movimento rapido. La pagina del progetto è disponibile all'indirizzo https://cuc-mipg.github.io/FlowAnchor.github.io/.

English

We propose FlowAnchor, a training-free framework for stable and efficient inversion-free, flow-based video editing. Inversion-free editing methods have recently shown impressive efficiency and structure preservation in images by directly steering the sampling trajectory with an editing signal. However, extending this paradigm to videos remains challenging, often failing in multi-object scenes or with increased frame counts. We identify the root cause as the instability of the editing signal in high-dimensional video latent spaces, which arises from imprecise spatial localization and length-induced magnitude attenuation. To overcome this challenge, FlowAnchor explicitly anchors both where to edit and how strongly to edit. It introduces Spatial-aware Attention Refinement, which enforces consistent alignment between textual guidance and spatial regions, and Adaptive Magnitude Modulation, which adaptively preserves sufficient editing strength. Together, these mechanisms stabilize the editing signal and guide the flow-based evolution toward the desired target distribution. Extensive experiments demonstrate that FlowAnchor achieves more faithful, temporally coherent, and computationally efficient video editing across challenging multi-object and fast-motion scenarios. The project page is available at https://cuc-mipg.github.io/FlowAnchor.github.io/.

FlowAnchor: Stabilizzare il Segnale di Modifica per l'Editing Video Senza Inversione

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

Abstract

Support