FlowAnchor: Стабилизация сигнала редактирования для безинверсионного редактирования видео

Аннотация

Мы предлагаем FlowAnchor — беспараметрический фреймворк для стабильного и эффективного редактирования видео на основе потоков без инверсии. Методы редактирования без инверсии недавно продемонстрировали впечатляющую эффективность и сохранение структуры в изображениях за счёт прямого управления траекторией сэмплирования с помощью редактирующего сигнала. Однако расширение этой парадигмы на видео остаётся сложной задачей, часто терпящей неудачу в сценах с множественными объектами или при увеличении количества кадров. Мы определяем коренную причину как нестабильность редактирующего сигнала в высокоразмерных латентных пространствах видео, возникающую из-за неточной пространственной локализации и затухания амплитуды, вызванного длиной последовательности. Чтобы преодолеть эту проблему, FlowAnchor явно фиксирует как место, так и силу редактирования. Он вводит Пространственно-осознанное уточнение внимания, которое обеспечивает согласованное выравнивание между текстовыми указаниями и пространственными областями, и Адаптивную модуляцию амплитуды, которая адаптивно сохраняет достаточную силу редактирования. Вместе эти механизмы стабилизируют редактирующий сигнал и направляют эволюцию на основе потоков к целевому распределению. Многочисленные эксперименты демонстрируют, что FlowAnchor обеспечивает более точное, временно согласованное и вычислительно эффективное редактирование видео в сложных сценариях с множественными объектами и быстрым движением. Страница проекта доступна по адресу https://cuc-mipg.github.io/FlowAnchor.github.io/.

English

We propose FlowAnchor, a training-free framework for stable and efficient inversion-free, flow-based video editing. Inversion-free editing methods have recently shown impressive efficiency and structure preservation in images by directly steering the sampling trajectory with an editing signal. However, extending this paradigm to videos remains challenging, often failing in multi-object scenes or with increased frame counts. We identify the root cause as the instability of the editing signal in high-dimensional video latent spaces, which arises from imprecise spatial localization and length-induced magnitude attenuation. To overcome this challenge, FlowAnchor explicitly anchors both where to edit and how strongly to edit. It introduces Spatial-aware Attention Refinement, which enforces consistent alignment between textual guidance and spatial regions, and Adaptive Magnitude Modulation, which adaptively preserves sufficient editing strength. Together, these mechanisms stabilize the editing signal and guide the flow-based evolution toward the desired target distribution. Extensive experiments demonstrate that FlowAnchor achieves more faithful, temporally coherent, and computationally efficient video editing across challenging multi-object and fast-motion scenarios. The project page is available at https://cuc-mipg.github.io/FlowAnchor.github.io/.

FlowAnchor: Стабилизация сигнала редактирования для безинверсионного редактирования видео

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

Аннотация

Support