FlowDirector: Trainingsfreie Flusssteuerung für präzise Text-zu-Video-Bearbeitung

papers.abstract

Textgesteuerte Videobearbeitung zielt darauf ab, Videoinhalte gemäß natürlicher Sprachanweisungen zu modifizieren. Während neuere trainingsfreie Ansätze Fortschritte gemacht haben, indem sie vortrainierte Diffusionsmodelle nutzen, verlassen sie sich typischerweise auf inversionsbasierte Techniken, die Eingabevideos in den latenten Raum abbilden, was oft zu zeitlichen Inkonsistenzen und einer verringerten strukturellen Treue führt. Um dies zu adressieren, schlagen wir FlowDirector vor, ein neuartiges inversionsfreies Videobearbeitungsframework. Unser Framework modelliert den Bearbeitungsprozess als direkte Evolution im Datenraum, die das Video über eine gewöhnliche Differentialgleichung (ODE) entlang seines inhärenten raumzeitlichen Manifolds sanft überführt und dadurch zeitliche Kohärenz und strukturelle Details bewahrt. Um lokalisierte und kontrollierbare Bearbeitungen zu erreichen, führen wir einen aufmerksamkeitsgesteuerten Maskierungsmechanismus ein, der das ODE-Geschwindigkeitsfeld moduliert und nicht-zielbezogene Regionen sowohl räumlich als auch zeitlich erhält. Darüber hinaus präsentieren wir, um unvollständige Bearbeitungen zu adressieren und die semantische Ausrichtung an Bearbeitungsanweisungen zu verbessern, eine leitungsverstärkte Bearbeitungsstrategie, die von Classifier-Free Guidance inspiriert ist und differenzielle Signale zwischen mehreren Kandidatenflüssen nutzt, um die Bearbeitungstrajektorie in Richtung einer stärkeren semantischen Ausrichtung zu lenken, ohne die strukturelle Konsistenz zu beeinträchtigen. Umfangreiche Experimente über Benchmarks hinweg zeigen, dass FlowDirector Spitzenleistungen in Bezug auf Anweisungsbefolgung, zeitliche Konsistenz und Hintergrundbewahrung erreicht und damit ein neues Paradigma für effiziente und kohärente Videobearbeitung ohne Inversion etabliert.

English

Text-driven video editing aims to modify video content according to natural language instructions. While recent training-free approaches have made progress by leveraging pre-trained diffusion models, they typically rely on inversion-based techniques that map input videos into the latent space, which often leads to temporal inconsistencies and degraded structural fidelity. To address this, we propose FlowDirector, a novel inversion-free video editing framework. Our framework models the editing process as a direct evolution in data space, guiding the video via an Ordinary Differential Equation (ODE) to smoothly transition along its inherent spatiotemporal manifold, thereby preserving temporal coherence and structural details. To achieve localized and controllable edits, we introduce an attention-guided masking mechanism that modulates the ODE velocity field, preserving non-target regions both spatially and temporally. Furthermore, to address incomplete edits and enhance semantic alignment with editing instructions, we present a guidance-enhanced editing strategy inspired by Classifier-Free Guidance, which leverages differential signals between multiple candidate flows to steer the editing trajectory toward stronger semantic alignment without compromising structural consistency. Extensive experiments across benchmarks demonstrate that FlowDirector achieves state-of-the-art performance in instruction adherence, temporal consistency, and background preservation, establishing a new paradigm for efficient and coherent video editing without inversion.

FlowDirector: Trainingsfreie Flusssteuerung für präzise Text-zu-Video-Bearbeitung

FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing

papers.abstract

Support