FlowAnchor: Estabilizando o Sinal de Edição para Edição de Vídeo sem Inversão

Resumo

Propomos o FlowAnchor, uma estrutura livre de treinamento para edição de vídeo baseada em fluxo, estável e eficiente, sem necessidade de inversão. Métodos de edição sem inversão demonstraram recentemente eficiência impressionante e preservação de estrutura em imagens, ao direcionar diretamente a trajetória de amostragem com um sinal de edição. No entanto, estender este paradigma para vídeos permanece desafiador, frequentemente falhando em cenas com múltiplos objetos ou com contagens de quadros aumentadas. Identificamos a causa raiz como a instabilidade do sinal de edição em espaços latentes de vídeo de alta dimensionalidade, que surge do posicionamento espacial impreciso e da atenuação da magnitude induzida pela duração. Para superar este desafio, o FlowAnchor ancora explicitamente tanto onde editar quanto com que intensidade editar. Ele introduz o Refinamento de Atenção com Consciência Espacial, que impõe um alinhamento consistente entre a orientação textual e as regiões espaciais, e a Modulação de Magnitude Adaptativa, que preserva de forma adaptativa uma força de edição suficiente. Juntos, esses mecanismos estabilizam o sinal de edição e guiam a evolução baseada em fluxo em direção à distribuição alvo desejada. Experimentos extensivos demonstram que o FlowAnchor alcança uma edição de vídeo mais fiel, temporalmente coerente e computacionalmente eficiente em cenários desafiadores com múltiplos objetos e movimentos rápidos. A página do projeto está disponível em https://cuc-mipg.github.io/FlowAnchor.github.io/.

English

We propose FlowAnchor, a training-free framework for stable and efficient inversion-free, flow-based video editing. Inversion-free editing methods have recently shown impressive efficiency and structure preservation in images by directly steering the sampling trajectory with an editing signal. However, extending this paradigm to videos remains challenging, often failing in multi-object scenes or with increased frame counts. We identify the root cause as the instability of the editing signal in high-dimensional video latent spaces, which arises from imprecise spatial localization and length-induced magnitude attenuation. To overcome this challenge, FlowAnchor explicitly anchors both where to edit and how strongly to edit. It introduces Spatial-aware Attention Refinement, which enforces consistent alignment between textual guidance and spatial regions, and Adaptive Magnitude Modulation, which adaptively preserves sufficient editing strength. Together, these mechanisms stabilize the editing signal and guide the flow-based evolution toward the desired target distribution. Extensive experiments demonstrate that FlowAnchor achieves more faithful, temporally coherent, and computationally efficient video editing across challenging multi-object and fast-motion scenarios. The project page is available at https://cuc-mipg.github.io/FlowAnchor.github.io/.

FlowAnchor: Estabilizando o Sinal de Edição para Edição de Vídeo sem Inversão

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

Resumo

Support