FlowDirector: Dirección de flujo sin entrenamiento para edición precisa de texto a video
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
June 5, 2025
Autores: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
cs.AI
Resumen
La edición de videos impulsada por texto tiene como objetivo modificar el contenido de un video según instrucciones en lenguaje natural. Si bien los enfoques recientes libres de entrenamiento han avanzado al aprovechar modelos de difusión preentrenados, generalmente dependen de técnicas basadas en inversión que mapean los videos de entrada en el espacio latente, lo que a menudo resulta en inconsistencias temporales y una degradación de la fidelidad estructural. Para abordar esto, proponemos FlowDirector, un novedoso marco de edición de videos libre de inversión. Nuestro marco modela el proceso de edición como una evolución directa en el espacio de datos, guiando el video mediante una Ecuación Diferencial Ordinaria (ODE) para transitar suavemente a lo largo de su variedad espacio-temporal inherente, preservando así la coherencia temporal y los detalles estructurales. Para lograr ediciones localizadas y controlables, introducimos un mecanismo de enmascaramiento guiado por atención que modula el campo de velocidad de la ODE, preservando las regiones no objetivo tanto espacial como temporalmente. Además, para abordar ediciones incompletas y mejorar la alineación semántica con las instrucciones de edición, presentamos una estrategia de edición mejorada por guía inspirada en la Guía Libre de Clasificador, que aprovecha señales diferenciales entre múltiples flujos candidatos para dirigir la trayectoria de edición hacia una alineación semántica más fuerte sin comprometer la consistencia estructural. Experimentos extensos en diversos benchmarks demuestran que FlowDirector alcanza un rendimiento de vanguardia en adherencia a instrucciones, coherencia temporal y preservación del fondo, estableciendo un nuevo paradigma para la edición de videos eficiente y coherente sin inversión.
English
Text-driven video editing aims to modify video content according to natural
language instructions. While recent training-free approaches have made progress
by leveraging pre-trained diffusion models, they typically rely on
inversion-based techniques that map input videos into the latent space, which
often leads to temporal inconsistencies and degraded structural fidelity. To
address this, we propose FlowDirector, a novel inversion-free video editing
framework. Our framework models the editing process as a direct evolution in
data space, guiding the video via an Ordinary Differential Equation (ODE) to
smoothly transition along its inherent spatiotemporal manifold, thereby
preserving temporal coherence and structural details. To achieve localized and
controllable edits, we introduce an attention-guided masking mechanism that
modulates the ODE velocity field, preserving non-target regions both spatially
and temporally. Furthermore, to address incomplete edits and enhance semantic
alignment with editing instructions, we present a guidance-enhanced editing
strategy inspired by Classifier-Free Guidance, which leverages differential
signals between multiple candidate flows to steer the editing trajectory toward
stronger semantic alignment without compromising structural consistency.
Extensive experiments across benchmarks demonstrate that FlowDirector achieves
state-of-the-art performance in instruction adherence, temporal consistency,
and background preservation, establishing a new paradigm for efficient and
coherent video editing without inversion.