ChatPaper.aiChatPaper

Выравнивание концепций с учетом движения для согласованного редактирования видео

Motion-Aware Concept Alignment for Consistent Video Editing

June 1, 2025
Авторы: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI

Аннотация

Мы представляем MoCA-Video (Motion-Aware Concept Alignment in Video) — обучение-независимый фреймворк, устраняющий разрыв между семантическим смешением в области изображений и видео. При наличии сгенерированного видео и предоставленного пользователем эталонного изображения MoCA-Video внедряет семантические признаки эталонного изображения в конкретный объект внутри видео, сохраняя при этом исходное движение и визуальный контекст. Наш подход использует диагональный график удаления шума и класс-независимую сегментацию для обнаружения и отслеживания объектов в латентном пространстве, а также для точного управления пространственным расположением смешанных объектов. Для обеспечения временной согласованности мы применяем семантические коррекции на основе импульса и стабилизацию остаточного шума с помощью гамма-коррекции для плавных переходов между кадрами. Мы оцениваем производительность MoCA с использованием стандартных метрик SSIM, LPIPS на уровне изображений, временного LPIPS, а также вводим новую метрику CASS (Conceptual Alignment Shift Score) для оценки согласованности и эффективности визуальных изменений между исходным запросом и модифицированными кадрами видео. Используя самостоятельно созданный набор данных, MoCA-Video превосходит текущие базовые подходы, демонстрируя превосходную пространственную согласованность, когерентное движение и значительно более высокий показатель CASS, несмотря на отсутствие обучения или тонкой настройки. MoCA-Video показывает, что структурированное манипулирование в траектории шума диффузии позволяет достичь контролируемого синтеза видео высокого качества.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a training-free framework bridging the gap between image-domain semantic mixing and video. Given a generated video and a user-provided reference image, MoCA-Video injects the semantic features of the reference image into a specific object within the video, while preserving the original motion and visual context. Our approach leverages a diagonal denoising schedule and class-agnostic segmentation to detect and track objects in the latent space and precisely control the spatial location of the blended objects. To ensure temporal coherence, we incorporate momentum-based semantic corrections and gamma residual noise stabilization for smooth frame transitions. We evaluate MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS, and introduce a novel metric CASS (Conceptual Alignment Shift Score) to evaluate the consistency and effectiveness of the visual shifts between the source prompt and the modified video frames. Using self-constructed dataset, MoCA-Video outperforms current baselines, achieving superior spatial consistency, coherent motion, and a significantly higher CASS score, despite having no training or fine-tuning. MoCA-Video demonstrates that structured manipulation in the diffusion noise trajectory allows for controllable, high-quality video synthesis.
PDF72June 4, 2025