Выравнивание концепций с учетом движения для согласованного редактирования видео
Motion-Aware Concept Alignment for Consistent Video Editing
June 1, 2025
Авторы: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI
Аннотация
Мы представляем MoCA-Video (Motion-Aware Concept Alignment in Video) — обучение-независимый фреймворк, устраняющий разрыв между семантическим смешением в области изображений и видео. При наличии сгенерированного видео и предоставленного пользователем эталонного изображения MoCA-Video внедряет семантические признаки эталонного изображения в конкретный объект внутри видео, сохраняя при этом исходное движение и визуальный контекст. Наш подход использует диагональный график удаления шума и класс-независимую сегментацию для обнаружения и отслеживания объектов в латентном пространстве, а также для точного управления пространственным расположением смешанных объектов. Для обеспечения временной согласованности мы применяем семантические коррекции на основе импульса и стабилизацию остаточного шума с помощью гамма-коррекции для плавных переходов между кадрами. Мы оцениваем производительность MoCA с использованием стандартных метрик SSIM, LPIPS на уровне изображений, временного LPIPS, а также вводим новую метрику CASS (Conceptual Alignment Shift Score) для оценки согласованности и эффективности визуальных изменений между исходным запросом и модифицированными кадрами видео. Используя самостоятельно созданный набор данных, MoCA-Video превосходит текущие базовые подходы, демонстрируя превосходную пространственную согласованность, когерентное движение и значительно более высокий показатель CASS, несмотря на отсутствие обучения или тонкой настройки. MoCA-Video показывает, что структурированное манипулирование в траектории шума диффузии позволяет достичь контролируемого синтеза видео высокого качества.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a
training-free framework bridging the gap between image-domain semantic mixing
and video. Given a generated video and a user-provided reference image,
MoCA-Video injects the semantic features of the reference image into a specific
object within the video, while preserving the original motion and visual
context. Our approach leverages a diagonal denoising schedule and
class-agnostic segmentation to detect and track objects in the latent space and
precisely control the spatial location of the blended objects. To ensure
temporal coherence, we incorporate momentum-based semantic corrections and
gamma residual noise stabilization for smooth frame transitions. We evaluate
MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS,
and introduce a novel metric CASS (Conceptual Alignment Shift Score) to
evaluate the consistency and effectiveness of the visual shifts between the
source prompt and the modified video frames. Using self-constructed dataset,
MoCA-Video outperforms current baselines, achieving superior spatial
consistency, coherent motion, and a significantly higher CASS score, despite
having no training or fine-tuning. MoCA-Video demonstrates that structured
manipulation in the diffusion noise trajectory allows for controllable,
high-quality video synthesis.