FlowAnchor: Estabilización de la Señal de Edición para la Edición de Vídeo sin Inversión

Resumen

Proponemos FlowAnchor, un marco de trabajo libre de entrenamiento para la edición de vídeos basada en flujos, estable, eficiente y sin inversión. Los métodos de edición sin inversión han demostrado recientemente una eficiencia y preservación de la estructura impresionantes en imágenes, dirigiendo directamente la trayectoria de muestreo con una señal de edición. Sin embargo, extender este paradigma a vídeos sigue siendo un desafío, fallando a menudo en escenas con múltiples objetos o con un número creciente de fotogramas. Identificamos la causa principal como la inestabilidad de la señal de edición en los espacios latentes de vídeo de alta dimensionalidad, que surge de una localización espacial imprecisa y de una atenuación de la magnitud inducida por la longitud. Para superar este desafío, FlowAnchor ancla explícitamente tanto dónde editar como con qué intensidad hacerlo. Introduce un Refinamiento de Atención con Conciencia Espacial, que impone una alineación consistente entre la guía textual y las regiones espaciales, y una Modulación de Magnitud Adaptativa, que preserva de forma adaptativa una intensidad de edición suficiente. Juntos, estos mecanismos estabilizan la señal de edición y guían la evolución basada en flujos hacia la distribución objetivo deseada. Experimentos exhaustivos demuestran que FlowAnchor logra una edición de vídeo más fiel, temporalmente coherente y computacionalmente eficiente en escenarios desafiantes con múltiples objetos y movimientos rápidos. La página del proyecto está disponible en https://cuc-mipg.github.io/FlowAnchor.github.io/.

English

We propose FlowAnchor, a training-free framework for stable and efficient inversion-free, flow-based video editing. Inversion-free editing methods have recently shown impressive efficiency and structure preservation in images by directly steering the sampling trajectory with an editing signal. However, extending this paradigm to videos remains challenging, often failing in multi-object scenes or with increased frame counts. We identify the root cause as the instability of the editing signal in high-dimensional video latent spaces, which arises from imprecise spatial localization and length-induced magnitude attenuation. To overcome this challenge, FlowAnchor explicitly anchors both where to edit and how strongly to edit. It introduces Spatial-aware Attention Refinement, which enforces consistent alignment between textual guidance and spatial regions, and Adaptive Magnitude Modulation, which adaptively preserves sufficient editing strength. Together, these mechanisms stabilize the editing signal and guide the flow-based evolution toward the desired target distribution. Extensive experiments demonstrate that FlowAnchor achieves more faithful, temporally coherent, and computationally efficient video editing across challenging multi-object and fast-motion scenarios. The project page is available at https://cuc-mipg.github.io/FlowAnchor.github.io/.

FlowAnchor: Estabilización de la Señal de Edición para la Edición de Vídeo sin Inversión

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

Resumen

Support