FlowDirector: Direzionamento del Flusso Senza Addestramento per un Editing Preciso da Testo a Video
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
June 5, 2025
Autori: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
cs.AI
Abstract
L'editing video guidato da testo mira a modificare il contenuto video in base a istruzioni in linguaggio naturale. Sebbene approcci recenti senza addestramento abbiano fatto progressi sfruttando modelli di diffusione pre-addestrati, si basano tipicamente su tecniche di inversione che mappano i video di input nello spazio latente, il che spesso porta a incoerenze temporali e a una ridotta fedeltà strutturale. Per affrontare questo problema, proponiamo FlowDirector, un nuovo framework di editing video senza inversione. Il nostro framework modella il processo di editing come un'evoluzione diretta nello spazio dei dati, guidando il video tramite un'Equazione Differenziale Ordinaria (ODE) per transizioni fluide lungo la sua intrinseca varietà spazio-temporale, preservando così la coerenza temporale e i dettagli strutturali. Per ottenere modifiche localizzate e controllabili, introduciamo un meccanismo di mascheramento guidato dall'attenzione che modula il campo di velocità dell'ODE, preservando le regioni non target sia spazialmente che temporalmente. Inoltre, per affrontare modifiche incomplete e migliorare l'allineamento semantico con le istruzioni di editing, presentiamo una strategia di editing potenziata da guida ispirata al Classifier-Free Guidance, che sfrutta segnali differenziali tra più flussi candidati per orientare la traiettoria di editing verso un allineamento semantico più forte senza compromettere la coerenza strutturale. Esperimenti estesi su benchmark dimostrano che FlowDirector raggiunge prestazioni all'avanguardia nell'aderenza alle istruzioni, nella coerenza temporale e nella conservazione dello sfondo, stabilendo un nuovo paradigma per un editing video efficiente e coerente senza inversione.
English
Text-driven video editing aims to modify video content according to natural
language instructions. While recent training-free approaches have made progress
by leveraging pre-trained diffusion models, they typically rely on
inversion-based techniques that map input videos into the latent space, which
often leads to temporal inconsistencies and degraded structural fidelity. To
address this, we propose FlowDirector, a novel inversion-free video editing
framework. Our framework models the editing process as a direct evolution in
data space, guiding the video via an Ordinary Differential Equation (ODE) to
smoothly transition along its inherent spatiotemporal manifold, thereby
preserving temporal coherence and structural details. To achieve localized and
controllable edits, we introduce an attention-guided masking mechanism that
modulates the ODE velocity field, preserving non-target regions both spatially
and temporally. Furthermore, to address incomplete edits and enhance semantic
alignment with editing instructions, we present a guidance-enhanced editing
strategy inspired by Classifier-Free Guidance, which leverages differential
signals between multiple candidate flows to steer the editing trajectory toward
stronger semantic alignment without compromising structural consistency.
Extensive experiments across benchmarks demonstrate that FlowDirector achieves
state-of-the-art performance in instruction adherence, temporal consistency,
and background preservation, establishing a new paradigm for efficient and
coherent video editing without inversion.