ChatPaper.aiChatPaper

FlowDirector : Pilotage de flux sans entraînement pour un montage précis de texte à vidéo

FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing

June 5, 2025
Auteurs: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
cs.AI

Résumé

L'édition vidéo pilotée par texte vise à modifier le contenu vidéo selon des instructions en langage naturel. Bien que les approches récentes sans apprentissage aient progressé en exploitant des modèles de diffusion pré-entraînés, elles reposent généralement sur des techniques basées sur l'inversion qui projettent les vidéos d'entrée dans l'espace latent, ce qui entraîne souvent des incohérences temporelles et une dégradation de la fidélité structurelle. Pour remédier à cela, nous proposons FlowDirector, un nouveau cadre d'édition vidéo sans inversion. Notre framework modélise le processus d'édition comme une évolution directe dans l'espace des données, guidant la vidéo via une Équation Différentielle Ordinaire (ODE) pour effectuer une transition fluide le long de sa variété spatiotemporelle intrinsèque, préservant ainsi la cohérence temporelle et les détails structurels. Pour réaliser des modifications localisées et contrôlables, nous introduisons un mécanisme de masquage guidé par l'attention qui module le champ de vitesse de l'ODE, préservant les régions non ciblées à la fois spatialement et temporellement. De plus, pour traiter les modifications incomplètes et améliorer l'alignement sémantique avec les instructions d'édition, nous présentons une stratégie d'édition renforcée par guidage inspirée du Classifier-Free Guidance, qui exploite les signaux différentiels entre plusieurs flux candidats pour orienter la trajectoire d'édition vers un alignement sémantique plus fort sans compromettre la cohérence structurelle. Des expériences approfondies sur des benchmarks démontrent que FlowDirector atteint des performances de pointe en matière d'adhésion aux instructions, de cohérence temporelle et de préservation de l'arrière-plan, établissant un nouveau paradigme pour une édition vidéo efficace et cohérente sans inversion.
English
Text-driven video editing aims to modify video content according to natural language instructions. While recent training-free approaches have made progress by leveraging pre-trained diffusion models, they typically rely on inversion-based techniques that map input videos into the latent space, which often leads to temporal inconsistencies and degraded structural fidelity. To address this, we propose FlowDirector, a novel inversion-free video editing framework. Our framework models the editing process as a direct evolution in data space, guiding the video via an Ordinary Differential Equation (ODE) to smoothly transition along its inherent spatiotemporal manifold, thereby preserving temporal coherence and structural details. To achieve localized and controllable edits, we introduce an attention-guided masking mechanism that modulates the ODE velocity field, preserving non-target regions both spatially and temporally. Furthermore, to address incomplete edits and enhance semantic alignment with editing instructions, we present a guidance-enhanced editing strategy inspired by Classifier-Free Guidance, which leverages differential signals between multiple candidate flows to steer the editing trajectory toward stronger semantic alignment without compromising structural consistency. Extensive experiments across benchmarks demonstrate that FlowDirector achieves state-of-the-art performance in instruction adherence, temporal consistency, and background preservation, establishing a new paradigm for efficient and coherent video editing without inversion.
PDF20June 6, 2025