FlowDirector: Direcionamento de Fluxo sem Treinamento para Edição Precisa de Texto para Vídeo
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
June 5, 2025
Autores: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
cs.AI
Resumo
A edição de vídeo orientada por texto tem como objetivo modificar o conteúdo de vídeos de acordo com instruções em linguagem natural. Embora abordagens recentes sem necessidade de treinamento tenham avançado ao aproveitar modelos de difusão pré-treinados, elas geralmente dependem de técnicas baseadas em inversão que mapeiam vídeos de entrada para o espaço latente, o que frequentemente resulta em inconsistências temporais e degradação da fidelidade estrutural. Para resolver isso, propomos o FlowDirector, uma nova estrutura de edição de vídeo sem inversão. Nossa estrutura modela o processo de edição como uma evolução direta no espaço de dados, guiando o vídeo por meio de uma Equação Diferencial Ordinária (ODE) para transicionar suavemente ao longo de sua variedade espaço-temporal intrínseca, preservando assim a coerência temporal e os detalhes estruturais. Para alcançar edições localizadas e controláveis, introduzimos um mecanismo de mascaramento guiado por atenção que modula o campo de velocidade da ODE, preservando regiões não-alvo tanto espacial quanto temporalmente. Além disso, para lidar com edições incompletas e melhorar o alinhamento semântico com as instruções de edição, apresentamos uma estratégia de edição aprimorada por guia inspirada no Classifier-Free Guidance, que aproveita sinais diferenciais entre múltiplos fluxos candidatos para direcionar a trajetória de edição em direção a um alinhamento semântico mais forte sem comprometer a consistência estrutural. Experimentos extensivos em benchmarks demonstram que o FlowDirector alcança desempenho de ponta em aderência às instruções, consistência temporal e preservação do fundo, estabelecendo um novo paradigma para edição de vídeo eficiente e coerente sem inversão.
English
Text-driven video editing aims to modify video content according to natural
language instructions. While recent training-free approaches have made progress
by leveraging pre-trained diffusion models, they typically rely on
inversion-based techniques that map input videos into the latent space, which
often leads to temporal inconsistencies and degraded structural fidelity. To
address this, we propose FlowDirector, a novel inversion-free video editing
framework. Our framework models the editing process as a direct evolution in
data space, guiding the video via an Ordinary Differential Equation (ODE) to
smoothly transition along its inherent spatiotemporal manifold, thereby
preserving temporal coherence and structural details. To achieve localized and
controllable edits, we introduce an attention-guided masking mechanism that
modulates the ODE velocity field, preserving non-target regions both spatially
and temporally. Furthermore, to address incomplete edits and enhance semantic
alignment with editing instructions, we present a guidance-enhanced editing
strategy inspired by Classifier-Free Guidance, which leverages differential
signals between multiple candidate flows to steer the editing trajectory toward
stronger semantic alignment without compromising structural consistency.
Extensive experiments across benchmarks demonstrate that FlowDirector achieves
state-of-the-art performance in instruction adherence, temporal consistency,
and background preservation, establishing a new paradigm for efficient and
coherent video editing without inversion.