FlowAnchor: Stabilisierung des Bearbeitungssignals für inversionsfreie Videobearbeitung

Zusammenfassung

Wir stellen FlowAnchor vor, ein trainingsfreies Framework für stabile und effiziente inversionsfreie, flussbasierte Videobearbeitung. Inversionsfreie Bearbeitungsmethoden haben kürzlich beeindruckende Effizienz und Strukturerhaltung bei Bildern gezeigt, indem sie den Sampling-Pfad direkt mit einem Bearbeitungssignal steuern. Die Erweiterung dieses Paradigmas auf Videos bleibt jedoch herausfordernd und scheitert häufig in Multi-Objekt-Szenen oder bei erhöhter Bildanzahl. Wir identifizieren die Ursache in der Instabilität des Bearbeitungssignals in hochdimensionalen videolatenzen Räumen, die durch unpräzise räumliche Lokalisierung und längeninduzierte Amplitudenabschwächung entsteht. Um diese Herausforderung zu bewältigen, verankert FlowAnchor explizit, wo und wie stark bearbeitet werden soll. Es führt eine raumbezogene Aufmerksamkeitsverfeinerung ein, die eine konsistente Ausrichtung zwischen textueller Führung und räumlichen Regionen erzwingt, sowie eine adaptive Amplitudenmodulation, die ausreichende Bearbeitungsstärke adaptiv erhält. Gemeinsam stabilisieren diese Mechanismen das Bearbeitungssignal und lenken die flussbasierte Evolution hin zur gewünschten Zielverteilung. Umfangreiche Experimente zeigen, dass FlowAnchor in anspruchsvollen Multi-Objekt- und Schnellbewegungsszenarien eine genauere, zeitlich kohärentere und recheneffizientere Videobearbeitung erreicht. Die Projektseite ist verfügbar unter https://cuc-mipg.github.io/FlowAnchor.github.io/.

English

We propose FlowAnchor, a training-free framework for stable and efficient inversion-free, flow-based video editing. Inversion-free editing methods have recently shown impressive efficiency and structure preservation in images by directly steering the sampling trajectory with an editing signal. However, extending this paradigm to videos remains challenging, often failing in multi-object scenes or with increased frame counts. We identify the root cause as the instability of the editing signal in high-dimensional video latent spaces, which arises from imprecise spatial localization and length-induced magnitude attenuation. To overcome this challenge, FlowAnchor explicitly anchors both where to edit and how strongly to edit. It introduces Spatial-aware Attention Refinement, which enforces consistent alignment between textual guidance and spatial regions, and Adaptive Magnitude Modulation, which adaptively preserves sufficient editing strength. Together, these mechanisms stabilize the editing signal and guide the flow-based evolution toward the desired target distribution. Extensive experiments demonstrate that FlowAnchor achieves more faithful, temporally coherent, and computationally efficient video editing across challenging multi-object and fast-motion scenarios. The project page is available at https://cuc-mipg.github.io/FlowAnchor.github.io/.

FlowAnchor: Stabilisierung des Bearbeitungssignals für inversionsfreie Videobearbeitung

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

Zusammenfassung

Support