FlowDirector: Trainingsvrije Flowsturing voor Nauwkeurige Tekst-naar-Video Bewerking
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
June 5, 2025
Auteurs: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
cs.AI
Samenvatting
Tekstgestuurd videobewerken heeft als doel videocontent aan te passen volgens instructies in natuurlijke taal. Hoewel recente trainingsvrije benaderingen vooruitgang hebben geboekt door gebruik te maken van vooraf getrainde diffusiemodellen, vertrouwen ze doorgaans op inversiegebaseerde technieken die invoervideo's in de latente ruimte afbeelden, wat vaak leidt tot temporele inconsistenties en verminderde structurele nauwkeurigheid. Om dit aan te pakken, stellen we FlowDirector voor, een nieuw inversievrij videobewerkingsframework. Ons framework modelleert het bewerkingsproces als een directe evolutie in de gegevensruimte, waarbij de video wordt geleid via een Gewone Differentiaalvergelijking (ODE) om soepel over te gaan langs zijn inherente spatiotemporele variëteit, waardoor temporele samenhang en structurele details behouden blijven. Om gelokaliseerde en controleerbare bewerkingen te bereiken, introduceren we een aandacht-gestuurd maskeringsmechanisme dat het ODE-snelheidsveld moduleert, waardoor niet-doelgebieden zowel ruimtelijk als temporeel behouden blijven. Bovendien presenteren we, om onvolledige bewerkingen aan te pakken en de semantische afstemming met bewerkingsinstructies te verbeteren, een begeleidingsversterkte bewerkingsstrategie geïnspireerd op Classifier-Free Guidance, die gebruikmaakt van differentiële signalen tussen meerdere kandidaatstromen om de bewerkingstrajectorie te sturen naar een sterkere semantische afstemming zonder de structurele consistentie in gevaar te brengen. Uitgebreide experimenten op benchmarks tonen aan dat FlowDirector state-of-the-art prestaties bereikt in het volgen van instructies, temporele consistentie en achtergrondbehoud, waarmee een nieuw paradigma wordt gevestigd voor efficiënte en samenhangende videobewerking zonder inversie.
English
Text-driven video editing aims to modify video content according to natural
language instructions. While recent training-free approaches have made progress
by leveraging pre-trained diffusion models, they typically rely on
inversion-based techniques that map input videos into the latent space, which
often leads to temporal inconsistencies and degraded structural fidelity. To
address this, we propose FlowDirector, a novel inversion-free video editing
framework. Our framework models the editing process as a direct evolution in
data space, guiding the video via an Ordinary Differential Equation (ODE) to
smoothly transition along its inherent spatiotemporal manifold, thereby
preserving temporal coherence and structural details. To achieve localized and
controllable edits, we introduce an attention-guided masking mechanism that
modulates the ODE velocity field, preserving non-target regions both spatially
and temporally. Furthermore, to address incomplete edits and enhance semantic
alignment with editing instructions, we present a guidance-enhanced editing
strategy inspired by Classifier-Free Guidance, which leverages differential
signals between multiple candidate flows to steer the editing trajectory toward
stronger semantic alignment without compromising structural consistency.
Extensive experiments across benchmarks demonstrate that FlowDirector achieves
state-of-the-art performance in instruction adherence, temporal consistency,
and background preservation, establishing a new paradigm for efficient and
coherent video editing without inversion.