ChatPaper.aiChatPaper

FlowDirector: Trainingsvrije Flowsturing voor Nauwkeurige Tekst-naar-Video Bewerking

FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing

June 5, 2025
Auteurs: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
cs.AI

Samenvatting

Tekstgestuurd videobewerken heeft als doel videocontent aan te passen volgens instructies in natuurlijke taal. Hoewel recente trainingsvrije benaderingen vooruitgang hebben geboekt door gebruik te maken van vooraf getrainde diffusiemodellen, vertrouwen ze doorgaans op inversiegebaseerde technieken die invoervideo's in de latente ruimte afbeelden, wat vaak leidt tot temporele inconsistenties en verminderde structurele nauwkeurigheid. Om dit aan te pakken, stellen we FlowDirector voor, een nieuw inversievrij videobewerkingsframework. Ons framework modelleert het bewerkingsproces als een directe evolutie in de gegevensruimte, waarbij de video wordt geleid via een Gewone Differentiaalvergelijking (ODE) om soepel over te gaan langs zijn inherente spatiotemporele variëteit, waardoor temporele samenhang en structurele details behouden blijven. Om gelokaliseerde en controleerbare bewerkingen te bereiken, introduceren we een aandacht-gestuurd maskeringsmechanisme dat het ODE-snelheidsveld moduleert, waardoor niet-doelgebieden zowel ruimtelijk als temporeel behouden blijven. Bovendien presenteren we, om onvolledige bewerkingen aan te pakken en de semantische afstemming met bewerkingsinstructies te verbeteren, een begeleidingsversterkte bewerkingsstrategie geïnspireerd op Classifier-Free Guidance, die gebruikmaakt van differentiële signalen tussen meerdere kandidaatstromen om de bewerkingstrajectorie te sturen naar een sterkere semantische afstemming zonder de structurele consistentie in gevaar te brengen. Uitgebreide experimenten op benchmarks tonen aan dat FlowDirector state-of-the-art prestaties bereikt in het volgen van instructies, temporele consistentie en achtergrondbehoud, waarmee een nieuw paradigma wordt gevestigd voor efficiënte en samenhangende videobewerking zonder inversie.
English
Text-driven video editing aims to modify video content according to natural language instructions. While recent training-free approaches have made progress by leveraging pre-trained diffusion models, they typically rely on inversion-based techniques that map input videos into the latent space, which often leads to temporal inconsistencies and degraded structural fidelity. To address this, we propose FlowDirector, a novel inversion-free video editing framework. Our framework models the editing process as a direct evolution in data space, guiding the video via an Ordinary Differential Equation (ODE) to smoothly transition along its inherent spatiotemporal manifold, thereby preserving temporal coherence and structural details. To achieve localized and controllable edits, we introduce an attention-guided masking mechanism that modulates the ODE velocity field, preserving non-target regions both spatially and temporally. Furthermore, to address incomplete edits and enhance semantic alignment with editing instructions, we present a guidance-enhanced editing strategy inspired by Classifier-Free Guidance, which leverages differential signals between multiple candidate flows to steer the editing trajectory toward stronger semantic alignment without compromising structural consistency. Extensive experiments across benchmarks demonstrate that FlowDirector achieves state-of-the-art performance in instruction adherence, temporal consistency, and background preservation, establishing a new paradigm for efficient and coherent video editing without inversion.
PDF20June 6, 2025