FlowDirector: Dirección de flujo sin entrenamiento para edición precisa de texto a video

Resumen

La edición de videos impulsada por texto tiene como objetivo modificar el contenido de un video según instrucciones en lenguaje natural. Si bien los enfoques recientes libres de entrenamiento han avanzado al aprovechar modelos de difusión preentrenados, generalmente dependen de técnicas basadas en inversión que mapean los videos de entrada en el espacio latente, lo que a menudo resulta en inconsistencias temporales y una degradación de la fidelidad estructural. Para abordar esto, proponemos FlowDirector, un novedoso marco de edición de videos libre de inversión. Nuestro marco modela el proceso de edición como una evolución directa en el espacio de datos, guiando el video mediante una Ecuación Diferencial Ordinaria (ODE) para transitar suavemente a lo largo de su variedad espacio-temporal inherente, preservando así la coherencia temporal y los detalles estructurales. Para lograr ediciones localizadas y controlables, introducimos un mecanismo de enmascaramiento guiado por atención que modula el campo de velocidad de la ODE, preservando las regiones no objetivo tanto espacial como temporalmente. Además, para abordar ediciones incompletas y mejorar la alineación semántica con las instrucciones de edición, presentamos una estrategia de edición mejorada por guía inspirada en la Guía Libre de Clasificador, que aprovecha señales diferenciales entre múltiples flujos candidatos para dirigir la trayectoria de edición hacia una alineación semántica más fuerte sin comprometer la consistencia estructural. Experimentos extensos en diversos benchmarks demuestran que FlowDirector alcanza un rendimiento de vanguardia en adherencia a instrucciones, coherencia temporal y preservación del fondo, estableciendo un nuevo paradigma para la edición de videos eficiente y coherente sin inversión.

English

Text-driven video editing aims to modify video content according to natural language instructions. While recent training-free approaches have made progress by leveraging pre-trained diffusion models, they typically rely on inversion-based techniques that map input videos into the latent space, which often leads to temporal inconsistencies and degraded structural fidelity. To address this, we propose FlowDirector, a novel inversion-free video editing framework. Our framework models the editing process as a direct evolution in data space, guiding the video via an Ordinary Differential Equation (ODE) to smoothly transition along its inherent spatiotemporal manifold, thereby preserving temporal coherence and structural details. To achieve localized and controllable edits, we introduce an attention-guided masking mechanism that modulates the ODE velocity field, preserving non-target regions both spatially and temporally. Furthermore, to address incomplete edits and enhance semantic alignment with editing instructions, we present a guidance-enhanced editing strategy inspired by Classifier-Free Guidance, which leverages differential signals between multiple candidate flows to steer the editing trajectory toward stronger semantic alignment without compromising structural consistency. Extensive experiments across benchmarks demonstrate that FlowDirector achieves state-of-the-art performance in instruction adherence, temporal consistency, and background preservation, establishing a new paradigm for efficient and coherent video editing without inversion.

FlowDirector: Dirección de flujo sin entrenamiento para edición precisa de texto a video

FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing

Resumen

Support