FlowDirector: Бесплатное управление потоком для точного редактирования текста в видео
FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
June 5, 2025
Авторы: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
cs.AI
Аннотация
Редактирование видео на основе текста направлено на изменение видеоконтента в соответствии с инструкциями на естественном языке. Хотя недавние подходы, не требующие обучения, достигли прогресса за счет использования предобученных диффузионных моделей, они обычно полагаются на методы, основанные на инверсии, которые отображают входные видео в латентное пространство, что часто приводит к временным несоответствиям и ухудшению структурной точности. Для решения этой проблемы мы предлагаем FlowDirector — новый фреймворк для редактирования видео без инверсии. Наш фреймворк моделирует процесс редактирования как прямое эволюционирование в пространстве данных, направляя видео через обыкновенное дифференциальное уравнение (ODE) для плавного перехода вдоль его внутреннего пространственно-временного многообразия, тем самым сохраняя временную согласованность и структурные детали. Для достижения локализованных и контролируемых изменений мы вводим механизм маскирования с управлением вниманием, который модулирует поле скорости ODE, сохраняя нетронутыми целевые области как в пространственном, так и во временном измерениях. Кроме того, для устранения неполных изменений и улучшения семантического соответствия инструкциям редактирования мы предлагаем стратегию улучшенного редактирования, вдохновленную методом Classifier-Free Guidance, которая использует дифференциальные сигналы между несколькими кандидатными потоками для направления траектории редактирования в сторону более сильного семантического соответствия без ущерба для структурной согласованности. Многочисленные эксперименты на различных бенчмарках демонстрируют, что FlowDirector достигает наилучших результатов в соблюдении инструкций, временной согласованности и сохранении фона, устанавливая новую парадигму для эффективного и согласованного редактирования видео без инверсии.
English
Text-driven video editing aims to modify video content according to natural
language instructions. While recent training-free approaches have made progress
by leveraging pre-trained diffusion models, they typically rely on
inversion-based techniques that map input videos into the latent space, which
often leads to temporal inconsistencies and degraded structural fidelity. To
address this, we propose FlowDirector, a novel inversion-free video editing
framework. Our framework models the editing process as a direct evolution in
data space, guiding the video via an Ordinary Differential Equation (ODE) to
smoothly transition along its inherent spatiotemporal manifold, thereby
preserving temporal coherence and structural details. To achieve localized and
controllable edits, we introduce an attention-guided masking mechanism that
modulates the ODE velocity field, preserving non-target regions both spatially
and temporally. Furthermore, to address incomplete edits and enhance semantic
alignment with editing instructions, we present a guidance-enhanced editing
strategy inspired by Classifier-Free Guidance, which leverages differential
signals between multiple candidate flows to steer the editing trajectory toward
stronger semantic alignment without compromising structural consistency.
Extensive experiments across benchmarks demonstrate that FlowDirector achieves
state-of-the-art performance in instruction adherence, temporal consistency,
and background preservation, establishing a new paradigm for efficient and
coherent video editing without inversion.