FlowDirector: Trainingsfreie Flusssteuerung für präzise Text-zu-Video-Bearbeitung
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
June 5, 2025
Autoren: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
cs.AI
Zusammenfassung
Textgesteuerte Videobearbeitung zielt darauf ab, Videoinhalte gemäß natürlicher Sprachanweisungen zu modifizieren. Während neuere trainingsfreie Ansätze Fortschritte gemacht haben, indem sie vortrainierte Diffusionsmodelle nutzen, verlassen sie sich typischerweise auf inversionsbasierte Techniken, die Eingabevideos in den latenten Raum abbilden, was oft zu zeitlichen Inkonsistenzen und einer verringerten strukturellen Treue führt. Um dies zu adressieren, schlagen wir FlowDirector vor, ein neuartiges inversionsfreies Videobearbeitungsframework. Unser Framework modelliert den Bearbeitungsprozess als direkte Evolution im Datenraum, die das Video über eine gewöhnliche Differentialgleichung (ODE) entlang seines inhärenten raumzeitlichen Manifolds sanft überführt und dadurch zeitliche Kohärenz und strukturelle Details bewahrt. Um lokalisierte und kontrollierbare Bearbeitungen zu erreichen, führen wir einen aufmerksamkeitsgesteuerten Maskierungsmechanismus ein, der das ODE-Geschwindigkeitsfeld moduliert und nicht-zielbezogene Regionen sowohl räumlich als auch zeitlich erhält. Darüber hinaus präsentieren wir, um unvollständige Bearbeitungen zu adressieren und die semantische Ausrichtung an Bearbeitungsanweisungen zu verbessern, eine leitungsverstärkte Bearbeitungsstrategie, die von Classifier-Free Guidance inspiriert ist und differenzielle Signale zwischen mehreren Kandidatenflüssen nutzt, um die Bearbeitungstrajektorie in Richtung einer stärkeren semantischen Ausrichtung zu lenken, ohne die strukturelle Konsistenz zu beeinträchtigen. Umfangreiche Experimente über Benchmarks hinweg zeigen, dass FlowDirector Spitzenleistungen in Bezug auf Anweisungsbefolgung, zeitliche Konsistenz und Hintergrundbewahrung erreicht und damit ein neues Paradigma für effiziente und kohärente Videobearbeitung ohne Inversion etabliert.
English
Text-driven video editing aims to modify video content according to natural
language instructions. While recent training-free approaches have made progress
by leveraging pre-trained diffusion models, they typically rely on
inversion-based techniques that map input videos into the latent space, which
often leads to temporal inconsistencies and degraded structural fidelity. To
address this, we propose FlowDirector, a novel inversion-free video editing
framework. Our framework models the editing process as a direct evolution in
data space, guiding the video via an Ordinary Differential Equation (ODE) to
smoothly transition along its inherent spatiotemporal manifold, thereby
preserving temporal coherence and structural details. To achieve localized and
controllable edits, we introduce an attention-guided masking mechanism that
modulates the ODE velocity field, preserving non-target regions both spatially
and temporally. Furthermore, to address incomplete edits and enhance semantic
alignment with editing instructions, we present a guidance-enhanced editing
strategy inspired by Classifier-Free Guidance, which leverages differential
signals between multiple candidate flows to steer the editing trajectory toward
stronger semantic alignment without compromising structural consistency.
Extensive experiments across benchmarks demonstrate that FlowDirector achieves
state-of-the-art performance in instruction adherence, temporal consistency,
and background preservation, establishing a new paradigm for efficient and
coherent video editing without inversion.